Big Data: Conhecendo o Apache Pig

Por que eu devo ler este artigo:Este artigo abordar� a ferramenta Apache Pig, uma plataforma de alto n�vel criada em cima do Apache Hadoop que visa facilitar aos desenvolvedores a cria��o de aplica��es e sistemas utilizando a tecnologia MapReduce para o processamento de grandes volumes de dados.

Esse tema � �til para profissionais interessados em desenvolver programas nos quais o uso de consultas e processamentos com MapReduce seja constante, buscando de alguma forma minimizar a dificuldade da sua utiliza��o sem sacrificar a performance no processo.

O tema tamb�m � interessante para desenvolvedores que buscam conhecer um pouco mais do poder que as novas ferramentas de Big Data da Apache podem trazer para suas aplica��es.

Podemos dizer que, nos �ltimos anos, o estudo e entendimento de toda a tem�tica que envolve o campo de Big Data vem sendo uma das �reas com mais oportunidades, tanto acad�micas como profissionais, no mercado.

O surgimento de tecnologias para o processamento de dados em larga escala revolucionou a maneira que tratamos nossas informa��es e trouxe, a todas as empresas, um desafio (e oportunidade) extra para suas �reas de TI.

Dentre essas tecnologias, podemos destacar o famoso projeto da Apache chamado Apache Hadoop. O Hadoop ganhou bastante popularidade entre os desenvolvedores, pois permite a constru��o de plataformas extremamente perform�ticas e escal�veis, ideais para o processamento de grandes quantias de dados, sem trazer consigo o custo de adquirir �superm�quinas�.

Juntamente com esse projeto, a funda��o Apache aproveitou o poder de processamento da arquitetura introduzida pelo Hadoop e criou, com base em suas bibliotecas, diversos outros projetos para auxiliar e introduzir novas funcionalidades aos desenvolvedores. Entre esses, iremos abordar, nesse artigo, o bastante interessante Apache Pig.

O Apache Pig, conforme dissemos, � um projeto da Apache que visa facilitar aos desenvolvedores a manipula��o de dados e a realiza��o de consultas em um ambiente de Big Data criado dentro do Hadoop.

Atrav�s da introdu��o de uma linguagem pr�pria, denominada Pig Latin, o Pig remove as barreiras que a linguagem complicada do MapReduce possui com uma sintaxe simples e de f�cil utiliza��o, aumentando, consequentemente, a produtividade dos projetos em que � empregado.

Tamanha � essa vantagem que, hoje em dia, podemos citar diversos gigantes da computa��o que incluem o Apache Pig em sua arquitetura. Apenas citando alguns exemplos, o LinkedIn faz uso do Apache Pig para a funcionalidade �Pessoas que talvez voc� conhe�a�, o AOL utiliza para realizar suas an�lises de dados e o Yahoo! o adota para auxiliar no processo de busca de seus sites.

Al�m dessas, o Apache Pig � utilizado em diversos outros sistemas (veja a se��o Links) e se mostra como uma das tecnologias mais empregadas no campo de an�lise de dados.

Com tantas vantagens, introduziremos nesse artigo alguns dos caminhos que voc�, desenvolvedor, pode tomar para trazer esses benef�cios � sua aplica��o, utilizando a linguagem Java e introduzindo a funcionalidade do MapReduce ao seu projeto.

Ao final desse estudo, pretendemos, tamb�m, mostrar um caso real onde a tecnologia do Apache Pig � empregada para o processamento e an�lise de dados.

Introdu��o sobre o Hadoop e o MapReduce

Antes de come�armos a entender o funcionamento do Apache Pig, precisamos conhecer um pouco mais sobre a plataforma do Apache Hadoop, na qual ele foi constru�do. Criado em 2005, o Hadoop foi um dos grandes pioneiros no processamento de grandes volumes de dados, trazendo diversas inova��es para o campo de Big Data.

Essas solu��es, em sua grande maioria, se baseiam no conceito de MapReduce, um modelo de programa��o implementado pelo Apache Hadoop que nos permite que os dados e informa��es sejam manipulados em paralelo, com grande efici�ncia em ambientes distribu�dos e ao trabalhar com grandes quantidades de dados.

Por sua vez, essa efici�ncia � poss�vel gra�as ao comportamento do processamento dentro do Hadoop, que divide as tarefas de MapReduce em tr�s fases principais: Map, onde o arquivo a ser processado � dividido em pares de chave e valor de acordo com o seu conte�do; Group, onde os conjuntos de tuplas (pares de dados) s�o agrupados de acordo com o valor de suas chaves; e a fase final Reduce, que executar� uma tarefa de redu��o para cada agrupamento gerado na fase anterior, transformando-os em um �nico resultado final.

Por fim, o Apache Hadoop tamb�m traz a implementa��o do HDFS, um sistema de arquivos distribu�do que permite a distribui��o de dados entre diversas m�quinas tradicionais, ou seja, n�o traz a necessidade de m�quinas caras para a constru��o de clusters de processamento e armazenagem de dados.

Motiva��o para cria��o do Apache Pig

Em contrapartida a esses benef�cios, no entanto, alguns pontos da implementa��o de sistemas utilizando MapReduce se tornaram extremamente complicados e trouxeram algumas preocupa��es aos desenvolvedores e, principalmente, �s empresas que decidiram adotar essa tecnologia.

O primeiro desses pontos � a alta complexidade da elabora��o de uma tarefa de MapReduce que funcione bem em um ambiente distribu�do. Como demonstramos anteriormente, as tr�s fases que comp�em o processamento de uma tarefa de MapReduce exigem um cuidado especial ao dividir e formatar o documento de origem, bem como as tarefas de Reduce, que necessitam ser previamente planejadas. Uma tarefa MapReduce m� otimizada pode, simplesmente, neutralizar todas as vantagens trazidas pelo Hadoop.

O segu ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Por Brunno Em 2014

Acelere seus resultados com o Prime.

Plano Start

12x R$89,00

Saiba mais

Plano Prime

12x R$199,00

Saiba mais

Plano Prime +

12x R$299,00

Saiba mais

Escolha seu Plano	Plano Start	Plano Prime	Plano Prime +
Forma��o completa Programador
Uso de IAs e automa��es
Exerc�cios gamificados
Projetos pr�ticos
Suporte ao conte�do
Comunidade de alunos
Cursos e artigos em +40 tecnologias
Trilha Monetize seu conhecimento
Mentoria T�cnica personalizada
Mentoria fazendo $ em 60 dias
Mentoria Primeiro emprego
Suporte humanizado 24 horas
Aulas exclusivas com especialistas
Mentorias mensais		2 por m�s	ilimitada
Tempo de assinatura	12 meses	12 meses	12 meses
	Saiba mais	Saiba mais	Saiba mais

Quero tirar uma d�vida

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Big Data: Conhecendo o Apache Pig

Veja neste artigo como simplificar o desenvolvimento de suas solu��es Big Data MapReduce utilizando o Apache Pig.

Confira outros conte�dos:

<Perguntas frequentes>

Por onde devo iniciar os estudos?

Em quanto tempo vou me tornar um programador?

Eu preciso de um diploma de faculdade para come�ar a atuar como programador?

Por que a programa��o se tornou a profiss�o mais promissora da atualidade?

Quais s�o os principais diferenciais da DevMedia?

O que eu irei aprender estudando pela DevMedia?

Quais as vantagens de aprender programa��o atrav�s da linguagem JavaScript?

A plataforma oferece certificados?

A plataforma tem suporte ao aluno, como funciona?

A DevMedia me forma como programador Full Stack?

Tem hor�rio para as aulas?

Por que a DevMedia n�o usa videoaulas em sua did�tica?

Preciso de um computador espec�fico para estudar na DevMedia?

Eu consigo estudar pelo celular?

A DevMedia tem aplicativo?

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

Quais s�o os planos de assinatura dispon�veis?

Adquirindo o plano, terei acesso a todo o conte�do?

A plataforma tem planos vital�cios?

A DevMedia tem fidelidade?

Como funciona o cancelamento?

Como excluir meus dados da plataforma?