Big Data Hadoop: Facilitando a construção de aplicações

Por que eu devo ler este artigo:Este artigo, em forma de tutorial, demonstra o uso do framework Hadoop na IDE Eclipse. Combinados, estas solu��es fornecem um ambiente produtivo para a constru��o de aplica��es com MapReduce.

Deste modo, este artigo � �til para desenvolvedores de aplica��es que podem ser modeladas com a t�cnica MapReduce, e onde tecnologias tradicionais de banco de dados n�o respondem de forma eficiente o processamento de dados cujo volume ultrapassa os terabytes de armazenamento.

MapReduce � um modelo de programa��o para processamento de grandes volumes de dados em paralelo, usando o poder computacional das tecnologias de redes de computadores e sistemas distribu�dos.

Embora simples de entender, esse paradigma apresenta dificuldades quanto � modelagem e programa��o de sistemas, pois � necess�rio representar a solu��o em termos de apenas duas fun��es, uma para o mapeamento e outra para a redu��o dos dados.

Outra barreira encontrada � construir, implantar e testar uma aplica��o usando uma infraestrutura que facilite o desenvolvimento desse tipo de software.

Atualmente, a tecnologia mais utilizada como implementa��o MapReduce � o framework Apache Hadoop, que fornece todo o ambiente de execu��o, tanto para testar (em menor escala e volume de dados) em uma m�quina de desenvolvimento, quanto para p�r em opera��o aplica��es que aproveitam o poder do processamento paralelo e distribu�do dos dados.

Hadoop foi projetado para ser executado em uma rede de m�quinas de baixo custo, utilizando o sistema operacional Linux. Em ess�ncia, ele possui dois componentes b�sicos: o HDFS e o MapReduce. O HDFS (Hadoop Distributed File System) � um sistema de arquivos distribu�do, onde a grande massa de dados � quebrada em blocos (tipicamente 64Kbytes), para serem distribu�dos e processados nas m�quinas do cluster da rede.

J� o MapReduce representa o framework citado anteriormente, e responde pelo processamento paralelo e distribu�do na rede. Para isso, devem ser programadas fun��es de mapeamento (map) e redu��o (reduce) que atuar�o sobre os dados dispon�veis no HDFS.

H� de se ressaltar que toda a complexidade envolvida na infraestrutura, como divis�o dos blocos de dados, replica��o dos blocos, integridade dos dados, recupera��o e tratamentos para toler�ncia a falhas ficam sob responsabilidade do Hadoop, liberando o programador dessas preocupa��es e concentrando-se apenas nos algoritmos map e reduce.

Este artigo n�o pretende explorar detalhes da arquitetura Hadoop, muito menos aprofundar-se nas bases te�ricas da t�cnica MapReduce. Tais informa��es j� foram discutidas em edi��es anteriores da Java Magazine, como nos artigos �Big Data na plataforma Java� (edi��o 103) e �Hadoop: fundamentos e instala��o� (edi��o 122), al�m de refer�ncias citadas na se��o Links.

O objetivo � apresentar e configurar um ambiente para o desenvolvimento de uma aplica��o MapReduce, o que vai permitir um ganho de produtividade na implementa��o e testes desse tipo de software.

Para o ambiente de desenvolvimento � proposto o uso do Eclipse, apoiado por um plugin que fornece o suporte � cria��o de projetos que usem o Apache Hadoop. Para demonstrar o emprego dessa instala��o, ser� desenvolvida uma aplica��o MapReduce para processar dados obtidos das bases do Exame Nacional do Ensino M�dio (Enem), que ir� calcular a m�dia anual das notas para cada unidade da federa��o.

Pr�-requisitos

Para realizar este tutorial, � necess�rio um computador com Linux, seja nativo ou rodando em uma m�quina virtual (VMware ou VirtualBox, por exemplo). Em ambos os casos, recomenda-se que a mem�ria principal tenha no m�nimo 2 Gigabytes e espa�o em disco suficiente para comportar as bases de dados e a instala��o dos programas.

Para o exemplo aplicado neste artigo, foram utilizados aproximadamente trinta gigabytes de disco, a distribui��o Linux foi a Ubuntu (vers�o 12), a vers�o do Apache Hadoop foi a 1.2 e o IDE Eclipse empregado foi o Kepler (vers�o 4.2).

Configura��o do Hadoop

O Hadoop � indicado para tratar e analisar o que chamamos de �big data�, conceito que descreve o enorme volume de dados que n�o pode ser processado com as ferramentas tradicionais de banco de dados relacionais.

Tamb�m � �til em situa��es nas quais o tamanho das bases de dados n�o � relevante, mas o custo computacional de process�-los o �, como ocorre em aplica��es cient�ficas, em alguns algoritmos de minera��o de dados, etc. Nestes casos, o processamento paralelo e distribu�do presente na tecnologia permite a escalabilidade da solu��o.

O Hadoop fornece tr�s modos de instala��o: local (standalone), pseudo-distribu�do e totalmente distribu�do. O primeiro � �til para o desenvolvimento e depura��o do c�digo, pois roda em um �nico computador como um processo Java.

Este � o modo que ser� adotado neste tutorial, entretanto, a instala��o e configura��o do modo local n�o ser� abordado neste artigo. Para mais informa��es sobre esses detalhes, consulte a se��o Links.

Para melhorar a produtividade de desenvolvimento desse tipo de aplica��o, � indicado o uso de um ambiente de desenvolvimento integrado (IDE) com o framework Hadoop.

A solu��o normalmente usada � o Eclipse, importando-se as bibliotecas do Hadoop, ou instalando-se um componente (plugin) no Eclipse que crie a estrutura de projetos Hadoop com todos os recursos necess�rios para esse fim.

A aplica��o

A aplica��o MapReduce constru�da neste artigo emprega bases de dados que est�o relacionadas �s provas do Enem. Sob responsabilidade do Minist�rio da Educa��o (MEC), o Enem (Exame Nacional do Ensino M�dio) � uma prova que indica a m�dia nacional das notas dos estudantes brasileiros, representando um indicador de avalia��o do ensino m�dio no Brasil.

Todas as bases de dados do Enem est�o dispon�veis para acesso p�blico, desde 1998, contendo as notas das provas aplicadas, informa��es socioecon�micas dos candidatos, caracter�sticas das escolas, e outras mais.

Nota: Criado em 1998, o Enem (Exame Nacional do Ensino M�dio) avalia os estudantes do ensino m�dio. O exame n�o � obrigat�rio e podem participar alunos que est�o concluindo ou que j� conclu�ram o ensino m�dio. ...

Quer ler esse conteúdo completo? Tenha acesso completo