Big Data Hadoop: Facilitando a constru��o de aplica��es

Fique por dentro

Este artigo, em forma de tutorial, demonstra o uso do framework Hadoop na IDE Eclipse. Combinados, estas soluç�es fornecem um ambiente produtivo para a construç�o de aplicaç�es com MapReduce.

Deste modo, este artigo � �til para desenvolvedores de aplicaç�es que podem ser modeladas com a t�cnica MapReduce, e onde tecnologias tradicionais de banco de dados n�o respondem de forma eficiente o processamento de dados cujo volume ultrapassa os terabytes de armazenamento.

MapReduce � um modelo de programaç�o para processamento de grandes volumes de dados em paralelo, usando o poder computacional das tecnologias de redes de computadores e sistemas distribu�dos.

Embora simples de entender, esse paradigma apresenta dificuldades quanto � modelagem e programaç�o de sistemas, pois � necess�rio representar a soluç�o em termos de apenas duas funç�es, uma para o mapeamento e outra para a reduç�o dos dados.

Outra barreira encontrada � construir, implantar e testar uma aplicaç�o usando uma infraestrutura que facilite o desenvolvimento desse tipo de software.

Atualmente, a tecnologia mais utilizada como implementaç�o MapReduce � o framework Apache Hadoop, que fornece todo o ambiente de execuç�o, tanto para testar (em menor escala e volume de dados) em uma m�quina de desenvolvimento, quanto para p�r em operaç�o aplicaç�es que aproveitam o poder do processamento paralelo e distribu�do dos dados.

Hadoop foi projetado para ser executado em uma rede de m�quinas de baixo custo, utilizando o sistema operacional Linux. Em ess�ncia, ele possui dois componentes b�sicos: o HDFS e o MapReduce. O HDFS (Hadoop Distributed File System) � um sistema de arquivos distribu�do, onde a grande massa de dados � quebrada em blocos (tipicamente 64Kbytes), para serem distribu�dos e processados nas m�quinas do cluster da rede.

J� o MapReduce representa o framework citado anteriormente, e responde pelo processamento paralelo e distribu�do na rede. Para isso, devem ser programadas funç�es de mapeamento (map) e reduç�o (reduce) que atuar�o sobre os dados dispon�veis no HDFS.

H� de se ressaltar que toda a complexidade envolvida na infraestrutura, como divis�o dos blocos de dados, replicaç�o dos blocos, integridade dos dados, recuperaç�o e tratamentos para toler�ncia a falhas ficam sob responsabilidade do Hadoop, liberando o programador dessas preocupaç�es e concentrando-se apenas nos algoritmos map e reduce.

Este artigo n�o pretende explorar detalhes da arquitetura Hadoop, muito menos aprofundar-se nas bases te�ricas da t�cnica MapReduce. Tais informaç�es j� foram discutidas em ediç�es anteriores da Java Magazine, como nos artigos �Big Data na plataforma Java� (ediç�o 103) e �Hadoop: fundamentos e instalaç�o� (ediç�o 122), al�m de refer�ncias citadas na seç�o Links.

O objetivo � apresentar e configurar um ambiente para o desenvolvimento de uma aplicaç�o MapReduce, o que vai permitir um ganho de produtividade na implementaç�o e testes desse tipo de software.

Para o ambiente de desenvolvimento � proposto o uso do Eclipse, apoiado por um plugin que fornece o suporte � criaç�o de projetos que usem o Apache Hadoop. Para demonstrar o emprego dessa instalaç�o, ser� desenvolvida uma aplicaç�o MapReduce para processar dados obtidos das bases do Exame Nacional do Ensino M�dio (Enem), que ir� calcular a m�dia anual das notas para cada unidade da federaç�o.

Pr�-requisitos

Para realizar este tutorial, � necess�rio um computador com Linux, seja nativo ou rodando em uma m�quina virtual (VMware ou VirtualBox, por exemplo). Em ambos os casos, recomenda-se que a mem�ria principal tenha no m�nimo 2 Gigabytes e espaço em disco suficiente para comportar as bases de dados e a instalaç�o dos programas.

Para o exemplo aplicado neste artigo, foram utilizados aproximadamente trinta gigabytes de disco, a distribuiç�o Linux foi a Ubuntu (vers�o 12), a vers�o do Apache Hadoop foi a 1.2 e o IDE Eclipse empregado foi o Kepler (vers�o 4.2).

Configuraç�o do Hadoop

O Hadoop � indicado para tratar e analisar o que chamamos de �big data�, conceito que descreve o enorme volume de dados que n�o pode ser processado com as ferramentas tradicionais de banco de dados relacionais.

Tamb�m � �til em situaç�es nas quais o tamanho das bases de dados n�o � relevante, mas o custo computacional de process�-los o �, como ocorre em aplicaç�es cient�ficas, em alguns algoritmos de mineraç�o de dados, etc. Nestes casos, o processamento paralelo e distribu�do presente na tecnologia permite a escalabilidade da soluç�o.

O Hadoop fornece tr�s modos de instalaç�o: local (standalone), pseudo-distribu�do e totalmente distribu�do. O primeiro � �til para o desenvolvimento e depuraç�o do c�digo, pois roda em um �nico computador como um processo Java.

Este � o modo que ser� adotado neste tutorial, entretanto, a instalaç�o e configuraç�o do modo local n�o ser� abordado neste artigo. Para mais informaç�es sobre esses detalhes, consulte a seç�o Links.

Para melhorar a produtividade de desenvolvimento desse tipo de aplicaç�o, � indicado o uso de um ambiente de desenvolvimento integrado (IDE) com o framework Hadoop.

A soluç�o normalmente usada � o Eclipse, importando-se as bibliotecas do Hadoop, ou instalando-se um componente (plugin) no Eclipse que crie a estrutura de projetos Hadoop com todos os recursos necess�rios para esse fim.

A aplicaç�o

A aplicaç�o MapReduce constru�da neste artigo emprega bases de dados que est�o relacionadas �s provas do Enem. Sob responsabilidade do Minist�rio da Educaç�o (MEC), o Enem (Exame Nacional do Ensino M�dio) � uma prova que indica a m�dia nacional das notas dos estudantes brasileiros, representando um indicador de avaliaç�o do ensino m�dio no Brasil."

[...] continue lendo...

Big Data Hadoop: Facilitando a constru��o de aplica��es

Veja nesse artigo como facilitar a construção de aplicações da nova geração com MapReduce, Big Data e o Hadoop.

Artigos relacionados