Big Data MapReduce simplificado com Apache Crunch

Por que eu devo ler este artigo:Este artigo � �til para usu�rios do framework Apache Hadoop que desenvolvem, atrav�s de suas bibliotecas para MapReduce, estrat�gias para processamento paralelo. Muitos desses usu�rios gostam de como a execu��o dos programas MapReduce � gerenciada dentro do Hadoop, por�m entendem que poderiam escrever c�digos de maneiras mais simples e, principalmente, mais flex�veis quanto �s alternativas hoje existentes no framework.

Com base nisto, ser� apresentado neste artigo o Apache Crunch, que n�o serve apenas para desenvolver uma solu��o MapReduce, mas tamb�m pipelines completos que encadeiem v�rios passos maps e reduces combinados, com o objetivo de atender a necessidade do problema a ser resolvido.

Para isto, h� uma introdu��o geral sobre a biblioteca Crunch, bem como o seu funcionamento na teoria e, para finalizar, � abordada uma parte pr�tica resolvendo cl�ssicos problemas did�ticos para o tema de Big Data, como contadores de acessos ou de palavras repetidas para uma grande entrada de dados (arquivos de texto, por exemplo).

Atualmente o termo Big Data est� cada vez mais presente nas discuss�es de solu��es r�pidas e distribu�das para armazenamento e processamento de grandes volumes de dados.

De forma complementar a este conceito, hoje existem diferentes maneiras para se descobrir quando um conjunto de dados � realmente grande para ser considerado Big Data, o que � muito importante, pois n�o faz sentido utilizar um grande conjunto de ferramentas que necessitam de muito poder de processamento e hardware sem ter a certeza do tamanho dos dados que se est� lidando.

Bons exemplos de sistemas que costumam originar ou trabalhar com essa quantidade de informa��es s�o os sistemas de meteorologia ou de an�lise de dados de redes sociais.

Pensando no armazenamento de grandes quantidades de dados (em alguns casos, que est�o em constante crescimento), tamb�m j� existem diversas op��es dispon�veis, como � o caso dos bancos de dados NoSQL. Por�m, n�o basta conhecer a origem e saber como armazenar e/ou recuperar o chamado Big Data, � necess�rio, tamb�m, saber process�-lo. A partir desse processamento, torna-se mais f�cil extrair informa��es, comportamentos e tend�ncias.

No entanto, para chegar a esse ponto � fundamental compreender os dados, pois somente dessa forma eles se tornam informa��es �teis. Os bancos de dados de uma determinada empresa, por exemplo, podem conter todas as respostas para indicar caminhos e solu��es antes imposs�veis de se imaginar sem o uso de ferramentas de processamento de grandes volumes de dados.

A partir delas, a �nica coisa que precisa ser feito � perguntar (processar), de maneira correta, eficiente e objetiva, o que se quer saber das fontes de dados.

Neste contexto, o MapReduce � uma das formas mais eficientes de se processar nossos grandes dep�sitos de dados. E o artigo apresentar�, exatamente, os conceitos do MapReduce baseado no seu framework mais famoso, o Hadoop, e posteriormente demonstrar� como seu funcionamento e utiliza��o podem se tornar mais f�ceis e agrad�veis com a introdu��o da biblioteca Apache Crunch.

MapReduce

O MapReduce foi definido em um dos papers do Google, escrito em 2004 por Jeffrey Dean e Sanjay Ghemawat, como um modelo de programa��o e uma implementa��o associada ao processamento e a gera��o de grandes conjuntos de dados.

Em resumo, � um paradigma de programa��o para processar grandes entradas de dados, atribuindo valor significativo a sua sa�da (as respostas citadas anteriormente). Uma caracter�stica extremamente poderosa desse paradigma � que sua arquitetura torna f�cil o entendimento e a visualiza��o de processos que funcionam de forma serial para que possam ser desenvolvidos para funcionar de forma paralela.

De maneira macro, o framework Apache Hadoop prov� alternativas para se lidar com grandes quantidades de dados, possuindo um sistema de arquivos distribu�do (o HDFS) e um framework de processamento MapReduce que, para ser posto em funcionamento, � necess�rio apenas que o desenvolvedor especifique uma fun��o map (respons�vel por transformar os dados de entrada em uma estrutura que fa�a sentido ao neg�cio em quest�o e/ou facilite o processo subsequente) e outra reduce (respons�vel por conhecer a estrutura criada pela fun��o map realizando uma esp�cie de filtragem/agrupamento dos dados para gerar valor � informa��o, ou seja, fornecer o resultado esperado pelo processo).

A partir da� o framework faz o resto, como quebrar e distribuir os dados de entrada, executar os v�rios mappers e reducers e, por fim, sumarizar e armazenar os resultados finais. � exatamente nesse ponto que � poss�vel inserir a biblioteca Apache Crunch.

Nesse momento um desenvolvedor j� familiarizado com a engine de MapReduce do Hadoop pode questionar o porqu� da necessidade de uma nova biblioteca para auxiliar a escrita de programas MapReduce. A resposta a essa pergunta ser� dada no decorrer do artigo, conforme o Crunch � apresentado. Vale a pena acompanhar!

Como j� � conhecido, o MapReduce fornece uma �tima abstra��o, por�m ele pode ficar ainda melhor. Atualmente � necess�ria uma quantidade de c�digo relativamente grande para implementar coisas simples com MapReduce, e muitos desenvolvedores entendem que devido a isso ele � um pouco ...

Quer ler esse conteúdo completo? Tenha acesso completo

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Por Wellington Em 2014

<Formação completa Programador FullStack/>

Conteúdo Front-end, Back-end e Mobile
Plano de estudo linear
+10 mil exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Suporte 365 dias do ano
12 meses de acesso

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso