Hadoop Tutorial: Fundamentos e Instala��o do Hadoop

Fique por dentro

Este artigo aborda os fundamentos b�sicos e a instalaç�o da tecnologia Apache Hadoop em um ambiente para desenvolvimento de aplicaç�es que manipulam grandes volumes de dados (Big Data).

Hadoop destaca-se como uma tecnologia aberta, baseada no paradigma MapReduce, que utiliza a computaç�o paralela e distribu�da para resolver o problema da escalabilidade no processamento de BigData, com garantias de toler�ncia a falhas. Das vantagens em adot�-lo, est� o fato de se utilizar aglomerados de m�quinas convencionais, tornando-o eficaz como soluç�o de baixo custo de implantaç�o. Ademais, com ele as empresas podem conquistar uma grande vantagem competitiva, dispondo de um mecanismo que possibilita avaliar grandes quantidades de dados em busca de novas informaç�es.

Vivenciamos a era da informaç�o, na qual volumes expressivos de dados s�o produzidos pelas mais diversas organizaç�es e estruturas de sistemas, alcançando dimens�es que superam com facilidade os petabytes di�rios. Tal volume surge de diversas fontes de dados, como, por exemplo, mediç�es coletadas por sensores dos mais diversos tipos, hist�rico dos serviços oferecidos por sistemas Web, variados conte�dos produzidos pelos usu�rios em redes sociais, acesso a bases de dados de imagens e mapas, e muito mais. Tais fontes heterog�neas produzem uma quantidade de dados acima da capacidade que normalmente pode ser processada por tecnologias tradicionais de banco de dados relacional.

Nesse contexto, o termo Big Data (aqui denominado Bigdata) foi definido considerando as seguintes quest�es:

Volume de dados em grande quantidade (acima de terabytes);
Velocidade nacriaç�o e captura de dados brutos a taxas muito r�pidas, podendo ser arquivos em lote, obtidos de bancos de dados, ou dados gerados em tempo real (em streaming); e,
Variedade no formato dos dados, podendo ser estruturado, semiestruturado, e at� mesmo n�o estruturado, ou uma combinaç�o dessas variaç�es. Essas tr�s quest�es est�o ilustradas na Figura 1.

Figura 1. As tr�s dimens�es do Bigdata: volume, variedade e velocidade

Assim, considerando as caracter�sticas extremas do Bigdata, uma nova classe de aplicaç�es deve ser constru�da para analisar grandes bases de dados, processar pesados c�lculos sobre esses dados, identificar comportamentos e disponibilizar serviços especializados em seus dom�nios.

Entretanto, n�o � uma tarefa trivial implementar tais soluç�es, pois h�, na maioria das vezes, a inviabilidade de execut�-las no modelo computacional tradicional, usando tecnologias baseadas em banco de dados relacional, e processando em m�quinas com escalabilidade baixa. Os ditos problemas grandes ou complexos chegam a consumir horas ou dias de processamento nas arquiteturas convencionais. Embora em constante evoluç�o, os recursos computacionais convencionais s�o insuficientes para acompanhar a crescente complexidade das novas aplicaç�es.

Como proposta para superar os desafios, surge o Apache Hadoop, um framework para o processamento de grandes quantidades de dados em aglomerados e grades computacionais. A ideia de promover soluç�es para os desafios dos sistemas distribu�dos em uma s� plataforma � o ponto central do projeto Hadoop. Nessa plataforma, problemas como integridade dos dados, disponibilidade dos n�s, escalabilidade da aplicaç�o e recuperaç�o de falhas s�o simplificadas para quem desenvolve as aplicaç�es.

Al�m disso, seu modelo de programaç�o e sistema de armazenamento dos dados promove um r�pido processamento, muito superior �s outras tecnologias similares. Atualmente, al�m de estar consolidado no mundo empresarial, o Hadoop tem obtido crescente apoio da comunidade acad�mica, proporcionando, assim, estudos cient�ficos e pr�ticos.

Com base em tudo o que foi citado, este artigo apresenta os fundamentos das t�cnicas e dos conceitos envolvidos no projeto Apache Hadoop, em especial o modelo de programaç�o MapReduce. Em seguida, s�o detalhadas as etapas para a instalaç�o e configuraç�o de um ambiente Hadoop a ser utilizado no desenvolvimento e testes de aplicaç�es Bigdata.

O que � o Apache Hadoop?

O Apache Hadoop � um framework open source para o armazenamento e processamento de dados em larga escala. Ele oferece como ferramentas principais uma implementaç�o do modelo MapReduce, respons�vel pelo processamento distribu�do, e o Hadoop Distributed File System (HDFS), para armazenamento de grandes conjuntos de dados, tamb�m de forma distribu�da.

Embora recente, o Apache Hadoop tem se destacado como uma ferramenta eficaz, sendo utilizado por grandes corporaç�es como IBM, Oracle, Facebook, Yahoo!, entre outras. Mas para chegar nesse ponto, alguns eventos importantes ocorreram nos �ltimos dez anos, como demonstram os fatos hist�ricos a seguir:

Fevereiro de 2003: Jeffrey Dean e Sanjay Ghemawat, dois engenheiros do Google, desenvolvem a tecnologia MapReduce, que possibilitou otimizar a indexaç�o e catalogaç�o dos dados sobre as p�ginas Web e suas ligaç�es. O MapReduce permite dividir um grande problema em v�rios pedaços e distribu�-los em diversos computadores. Essa t�cnica deixou o sistema de busca do Google mais r�pido mesmo sendo executado em computadores convencionais e menos confi�veis, diminuindo assim os custos ligados � infraestrutura;
Outubro de 2003: O Google desenvolve o Google File System, um sistema de arquivos distribu�do o GoogleFS (depois chamado de GFS), criado para dar suporte ao armazenamento e processamento do grande volume de dados da tecnologia MapReduce;
Dezembro de 2004: o Google publica o artigo Simplified Data Processing on Large Clusters, de autoria dos engenheiros Dean e Ghemawat, onde eles apresentam os principais conceitos e caracter�sticas da tecnologia MapReduce, por�m, sem detalhes sobre a implementaç�o;
Dezembro de 2005: o consultor de software Douglas Cutting divulgou a implementaç�o de uma vers�o do MapReduce e do sistema de arquivos distribu�dos com base nos artigos do GFS e do MapReduce publicados pelos engenheiros do Google. A implementaç�o faz parte do subprojeto Nutch, adotado pela comunidade de software livre para criar um motor de busca na Web, normalmente denominado web crawler (um software que automatiza a indexaç�o de p�ginas) e um analisador de formato de documentos parser . Tempos depois o Nutch seria hospedado como o projeto Lucene, na Apache Software Foundation , tendo como principal funç�o fornecer um poderoso mecanismo de busca e indexaç�o de documentos armazenados em diversos formatos, como arquivos de texto, p�ginas web, planilhas eletr�nicas, ou qualquer outro formato do qual se possa extrair informaç�o textual;
Fevereiro de 2006: a empresa Yahoo! decide contratar Cutting e investir no projeto Nutch, mantendo o c�digo aberto. Nesse mesmo ano, o projeto recebe o nome de Hadoop, passando a ser um projeto independente da Apache Software Foundation;
Abril de 2007: o Yahoo! anuncia ter executado com sucesso uma aplicaç�o Hadoop em um aglomerado de 1.000 m�quinas. Tamb�m nessa data, o Yahoo! passa a ser o maior patrocinador do projeto. Alguns anos depois, a empresa j� contava com mais de 40.000 m�quinas executando o Hadoop (White, 2010);
Janeiro de 2008: o Apache Hadoop, na vers�o 0.15.2, amadurece como um projeto incubado na fundaç�o Apache, e torna-se um dos principais projetos abertos da organizaç�o;
Julho de 2008: uma aplicaç�o Hadoop em um dos aglomerados do Yahoo! quebra o recorde mundial de velocidade de processamento na ordenaç�o de 1 terabyte de dados. O aglomerado era composto de 910 m�quinas e executou a ordenaç�o em 209 segundos, superando o recorde anterior que era de 297 segundos;
Setembro de 2009: a empresa Cloudera, especializa em Bigdata, contrata Cutting como l�der do projeto. Cloudera � uma empresa que redistribui uma vers�o comercial derivada do Apache Hadoop;
Dezembro de 2011: passados seis anos desde seu lançamento, o Apache Hadoop disponibiliza sua vers�o est�vel (a 1.0.0). Entre as melhorias, destaca-se o uso do protocolo de autenticaç�o de rede Kerberos, para maior segurança de rede; a incorporaç�o do subprojeto HBase, oferecendo suporte a BigTable; e o suporte � interface WebHDFS, que permite o acesso HTTP para leitura e escrita de dados;
Maio de 2012: a Apache faz o lançamento da vers�o da 2.0 do Hadoop, incluindo alta disponibilidade no sistema de arquivos (HDFS) e melhorias no c�digo.

Ao ser hospedado como um projeto da Apache Software Foundation, o Hadoop segue o modelo de licenciamento da Apache, bem mais flex�vel que outras modalidades de licença para software livre, permitindo modificaç�es e redistribuiç�o do c�digo-fonte. Dessa forma, v�rias empresas surgiram no mercado distribuindo implementaç�es do Hadoop.

Cada uma dessas implementaç�es normalmente acrescenta novas funcionalidades, aplicam especificidades de um nicho de mercado, ou ainda se limitam a prestaç�o de serviços como implantaç�o, suporte e treinamento. Dentre algumas empresas com estes objetivos temos a Amazon Web Service, Cloudera, Hortonworks, KarmaSphere, Pentaho e Tresada. Atualmente, a Cloudera � uma das l�deres no mercado, chefiada por Douglas Cutting, um dos criadores do Apache Hadoop original.

Nota: A licença Apache exige a inclus�o do aviso de direitos autorais (copyright) e termo de responsabilidade, mas n�o � uma licença totalmente livre, comcopyleft, permitindo seu uso em um software comercial.

Arquitetura Hadoop

Os componentes chave do Hadoop s�o o modelo de programaç�o MapReduce e o sistema de arquivos distribu�do HDFS. Entretanto, em meio a sua evoluç�o, novos subprojetos, que s�o incorporados como componentes � arquitetura Hadoop, completam a infraestrutura do framework para resolver problemas espec�ficos. Uma vis�o simplificada dessa organizaç�o de componentes pode ser vista na Figura 2.

Na camada de armazenamento de dados h� o sistema de arquivos distribu�do Hadoop Distributed File System (HDFS), um dos principais componentes do framework. J� na camada de processamento de dados temos o MapReduce, que tamb�m figura como um dos principais subprojetos do Hadoop. Na camada de acesso aos dados s�o disponibilizadas ferramentas como Pig, Hive, Avro, Mahout, entre outras.

Estas ferramentas tendem a facilitar a an�lise e consulta dos dados, fornecendo uma linguagem de consulta similar �s utilizadas em bancos de dados relacionais (como a SQL, por exemplo). Assim, todo um ecossistema em volta do Hadoop � criado com ferramentas que suprem necessidades espec�ficas; por exemplo, ZooKeeper, Flume e Chukwa, que melhoram a camada de gerenciamento. Essas ferramentas fornecem uma interface com o usu�rio que busca diminuir as dificuldades encontradas no manuseio das aplicaç�es que rodam nessa plataforma.

Figura 2. Componentes da arquitetura Hadoop

Para funcionar, uma aplicaç�o Hadoop exige no m�nimo a utilizaç�o das ferramentas da camada de armazenamento (HDFS) e processamento MapReduce. As demais camadas podem ser adicionadas conforme a necessidade. A seguir, cada componente � explicado em sua ess�ncia.

Componentes principais

O projeto Hadoop, em sua vers�o est�vel (a 1.0), atualmente sob a tutela da Fundaç�o Apache, inclui os seguintes m�dulos, mantidos como subprojetos:

Hadoop Common: cont�m um conjunto de utilit�rios e a estrutura base que d� suporte aos demais subprojetos do Hadoop. Utilizado em toda a aplicaç�o, possui diversas bibliotecas como, por exemplo, as utilizadas para serializaç�o de dados e manipulaç�o de arquivos. � neste subprojeto tamb�m que s�o disponibilizadas as interfaces para outros sistemas de arquivos, tais como Amazon S3 e CloudSource;
Hadoop MapReduce: implementa um modelo de programaç�o na forma de uma biblioteca de classes especializadas no processamento de conjuntos de dados distribu�dos em um aglomerado computacional. Abstrai toda a computaç�o paralela em apenas duas funç�es: Map e Reduce;
Hadoop Distributed File System (HDFS): um sistema de arquivos distribu�do nativo do Hadoop. Permite o armazenamento e transmiss�o de grandes conjuntos de dados em m�quinas de baixo custo. Possui mecanismos que o caracteriza como um sistema altamente tolerante a falhas.

Componentes adicionais

Al�m desses, h� outros projetos na comunidade Apache que adicionam funcionalidades ao Hadoop, como:

Ambari: ferramenta baseada na Web para o suporte, gerenciamento e monitoramento de outros m�dulos Hadoop, como HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig e Sqoop;
Avro: sistema de serializaç�o de dados;
Cassandra: banco de dados escal�vel, com toler�ncia a falhas;
Flume e Chukwa: sistemas que tratam da coleta de ocorr�ncias (logs) para o monitoramento do Hadoop;
HBase: banco de dados escal�vel e distribu�do que suporta o armazenamento de dados estruturados para grandes tabelas;
Hive: infraestrutura de data warehouse que fornece sumarizaç�o de dados e consultas adhoc;
Mahout: sistema para desenvolvimento de aplicaç�es de aprendizagem de m�quina e biblioteca com funç�es de mineraç�o de dados;
Pig:fornece uma linguagem de consulta de alto n�vel (PigLatin) orientada a fluxo de dados, e uma estrutura de execuç�o para computaç�o paralela;
ZooKeeper: serviço de coordenaç�o de alto desempenho para aplicaç�es distribu�das.

Funcionamento da arquitetura b�sica

O Hadoop fornece uma arquitetura para que aplicativos MapReduce funcionem de forma distribu�da em um cluster de m�quinas, organizadas em uma m�quina mestre e v�rias escravo. Para simplificar o desenvolvimento dessas aplicaç�es, � poss�vel instalar e executar o framework no modo simplificado, utilizando apenas uma m�quina (que ir� simular um ambiente paraleliz�vel/distribu�do).

Para que o Hadoop funcione, � necess�rios cinco processos: NameNode, DataNode, SecondaryNameNode, JobTracker e TaskTracker. Os tr�s primeiros s�o integrantes do modelo de programaç�o MapReduce, e os dois �ltimos do sistema de arquivo HDFS. Os componentes NameNode, JobTracker e SecondaryNameNode s�o �nicos para toda a aplicaç�o, enquanto que o DataNode e JobTracker s�o instanciados para cada m�quina do cluster.

Considerando os dois principais componentes do Hadoop (MapReduce e HDFS), a arquitetura b�sica ser� explica a seguir.

HDFS (Hadoop Distributed File System)

Um sistema de arquivos distribu�do � respons�vel pela organizaç�o, armazenamento, localizaç�o, compartilhamento e proteç�o de arquivos que est�o distribu�dos em computadores de uma rede. Em sistemas distribu�dos, quando mais de um usu�rio tenta gravar um mesmo arquivo simultaneamente, � necess�rio um controle da concorr�ncia (acesso simult�neo ao mesmo recurso) para que haja uma operaç�o at�mica dos processos a fim de garantir a consist�ncia das informaç�es.

Neste caso, um sistema de arquivos distribu�dos deve garantir a atomicidade nas operaç�es de leitura, escrita, criaç�o ou remoç�o de um arquivo, de forma transparente para quem manipula os dados, como se fosse similar a um sistema de arquivos local.

Nota: Um sistema de arquivos � um componente do sistema operacional que permite ao usu�rio interagir com os arquivos e diret�rios, seja para salvar, modificar ou excluir arquivos e diret�rios (pastas), bem como instalar, executar ou configurar programas. Um sistema de arquivos distribu�do faz tudo isso, mas em um ambiente de rede, onde os arquivos est�o fisicamente espalhados em m�quinas distintas. Para quem usa tais arquivos, o sistema deve permitir as mesmas facilidades de um sistema de arquivos local.

O HDFS atua como um sistema de arquivos distribu�do, localizado na camada de armazenamento do Hadoop, sendo otimizado para alto desempenho na leitura e escrita de grande arquivos (acima dos gigabytes) que est�o localizados em computadores (n�s) de um cluster.

Dentre as caracter�sticas do HDFS est�o a escalabilidade e disponibilidade graças � replicaç�o de dados e toler�ncia a falhas. O sistema se encarrega de quebrar os arquivos em partes menores, normalmente blocos de 64MB, e replicar os blocos um n�mero configurado de vezes (pelo menos tr�s c�pias no modo cluster, e um no modo local) em servidores diferentes, o que torna o processo tolerante a falhas, tanto em hardware quanto em software.

O fato � que cada servidor tem muitos elementos com uma probabilidade de falha, o que significa que sempre haver� algum componente do HDFS falhando. Por serem cr�ticas, falhas devem ser detectadas de forma r�pida e eficientemente resolvidas a tempo de evitar paradas no sistema de arquivos do Hadoop.

A arquitetura do HDFS � estruturada em master-slave (mestre-escravo), com dois processos principais, que s�o:

Namenode: respons�vel por gerenciar os dados (arquivos) armazenados no HDFS, registrando as informaç�es sobre quais datanodes s�o respons�veis por quais blocos de dados de cada arquivo, organizando todas essas informaç�es em uma tabela de metadados. Suas funç�es incluem mapear a localizaç�o, realizar a divis�o dos arquivos em blocos, encaminhar os blocos aos n�s escravos, obter os metadados dos arquivos e controlar a localizaç�o de suas r�plicas. Como o NameNode � constantemente acessado, por quest�es de desempenho, ele mant�m todas as suas informaç�es em mem�ria. Ele integra o sistema HDFS e fica localizado no n� mestre da aplicaç�o, juntamente com o JobTracker;
Datanode: respons�vel pelo armazenamento do conte�do dos arquivos nos computadores escravos. Como o HDFS � um sistema de arquivos distribu�do, � comum a exist�ncia de diversas inst�ncias de DataNode em uma aplicaç�o Hadoop, permitindo que os arquivos sejam particionados em blocos e ent�o replicados em m�quinas diferentes. Um DataNode poder� armazenar m�ltiplos blocos, inclusive de diferentes arquivos, entretanto, eles precisam se reportar constantemente ao NameNode, informando-o sobre as operaç�es que est�o sendo realizadas nos blocos.

MapReduce

O MapReduce � um modelo computacional para processamento paralelo das aplicaç�es. Ele abstrai as dificuldades do trabalho com dados distribu�dos, eliminando quaisquer problemas que o compartilhamento de informaç�es pode trazer em um sistema dessa natureza. Consiste das seguintes funç�es:

Map: Respons�vel por receber os dados de entrada, estruturados em uma coleç�o de pares chave/valor. Tal funç�o map deve ser codificada pelo desenvolvedor, atrav�s de programas escritos em Java ou em linguagens suportadas pelo Hadoop;
Shuffle: A etapa de shuffle � respons�vel por organizar o retorno da funç�o Map, atribuindo para a entrada de cada Reduce todos os valores associados a uma mesma chave. Esta etapa � realizada pela biblioteca do MapReduce;
Reduce: Por fim, ao receber os dados de entrada, a funç�o Reduce retorna uma lista de chave/valor contendo zero ou mais registros, semelhante ao Map, que tamb�m deve ser codificada pelo desenvolvedor.

A arquitetura do MapReduce segue o mesmo princ�pio master-slave, necessitando de tr�s processos que dar�o suporte � execuç�o das funç�es map e reduce do usu�rio, a saber:

JobTracker: recebe a aplicaç�o MapReduce e programa as tarefas map e reduce para execuç�o, coordenando as atividades nos TaskTrackers. Sua funç�o ent�o � designar diferentes n�s para processar as tarefas de uma aplicaç�o e monitor�-las enquanto estiverem em execuç�o. Um dos objetivos do monitoramento �, em caso de falha, identificar e reiniciar uma tarefa no mesmo n�, ou, em caso de necessidade, em um n� diferente;
TaskTracker: processo respons�vel por executar as tarefas de map e reduce e informar o progresso das atividades. Assim como os DataNodes, uma aplicaç�o Hadoop � composta por diversas inst�ncias de TaskTrackers, cada uma em um n� escravo. Um TaskTracker executa uma tarefa map ou uma tarefa reduce designada a ele. Como os TaskTrackers rodam sobre m�quinas virtuais, � poss�vel criar v�rias m�quinas virtuais em uma mesma m�quina f�sica, de forma a explorar melhor os recursos computacionais;
SecondaryNameNode: utilizado para auxiliar o NameNode a manter seu serviço, e ser uma alternativa de recuperaç�o no caso de uma falha do NameNode. Sua �nica funç�o � realizar pontos de checagem (checkpointing) do NameNode em intervalos pr�-definidos, de modo a garantir a sua recuperaç�o e atenuar o seu tempo de reinicializaç�o.

Na Figura 3 observa-se como os processos da arquitetura do Hadoop est�o interligados, organizados em n�s mestre e escravos. O mestre cont�m o NameNode, o JobTracker e possivelmente o SecondaryNameNode. J� a segunda camada, constitu�da de n�s escravos, comporta em cada uma de suas inst�ncias um TaskTracker e um DataNode, vinculados respectivamente ao JobTracker e ao NameNode do n� mestre.

Uma tarefa (task) que roda em um n� escravo pode ser tanto de uma funç�o map quanto de uma funç�o reduce.

Figura 3. Funcionamento da arquitetura b�sica do Hadoop

Instalaç�o do ambiente Hadoop

O Hadoop possui tr�s formas de instalaç�o e execuç�o da plataforma:

Modo Local ou Independente: Por padr�o, o Hadoop foi configurado para executar em modo independente n�o distribu�do. Esse modo � �til para desenvolver e testar um aplicativo;
Modo Pseudo distribu�do: Pode executar em um �nico n� em modo pseudo distribu�do. Nesse caso, cada inst�ncia de processo Hadoop executa como um processo Java diferente;
Modo Totalmente distribu�do: O Hadoop � configurado em cluster com m�quinas f�sicas (ou virtualizadas), cada qual com um endereço IP v�lido.

Na pr�tica, � poss�vel alternar entre essas configuraç�es bastando que se editem as propriedades relacionadas em tr�s arquivos: core-site.xml, hdfs-site.xml e mapred-site.xml. A seguir, � realizada a instalaç�o do modo padr�o (local), e no final � demonstrado o funcionamento da plataforma com a execuç�o de uma aplicaç�o exemplo.

Configuraç�o do ambiente no modo local

O Hadoop est� dispon�vel como pacote open-source no portal da Apache (ver seç�o Links). Neste endereço voc� encontra a vers�o mais est�vel (1.2.x), a vers�o preliminar de atualizaç�o (a 2.x) e todas as vers�es anteriores a mais est�vel.

Entretanto, h� no mercado vers�es que empacotam todo o ambiente de execuç�o, bem como as configuraç�es da plataforma operacional para a maioria das distribuiç�es Linux atualmente em uso (Ubuntu, CentOS, RedHat, etc.).

Entre essas vers�es comerciais, por�m gratuitas, uma das mais utilizadas � a ofertada pela empresa Cloudera (ver seç�o Links), denominada CDH (atualmente nas vers�es 3.x e 4.x), que pode ser instalada em uma m�quina virtual (VMware, por exemplo), baseada no Linux CentOS.

Saiba mais: Guia do Programador Java

Para efeito de demonstraç�o, foi escolhida a instalaç�o padr�o do projeto Apache. Neste caso, � necess�rio verificar se a instalaç�o Linux escolhida est� configurada com os pacotes Java e SSH. Para os exemplos deste artigo, foi utilizado o seguinte ambiente: Linux Ubuntu 12.x, Java JDK 1.7, Apache Hadoop-1.2.1.

Ap�s a definiç�o e ativaç�o do sistema operacional Linux, � recomendado criar um usu�rio e um grupo dedicados para o Hadoop, executando os comandos vistos na Listagem 1.


// Criando grupo com o nome �hadoopgrupo�: 
$ sudo addgroup hadoopgrupo 
// Adicionado o usu�rio �hadoop� ao grupo: 
$ sudo adduser --ingroup hadoopgrupo hadoop

Listagem 1. Comandos para criaç�o de usu�rio e grupo

Em seguida, providencie uma chave de autenticaç�o SSH. Isso se faz necess�rio porque o Hadoop utiliza conex�o segura (SSH) para gerenciar seus n�s (mestre e escravos). No caso de conex�o local (localhost), n�o h� necessidade de senha na configuraç�o do SSH. Os comandos vistos na Listagem 2 mostram como criar a chave de conex�o SSH para o localhost.


$ ssh-keygen -t rsa -P ��
$ cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Listagem 2. Comandos para criaç�o da chave SSH

Certifique-se que o Hadoop esteja instalado na vers�o definida neste artigo (a 1.2.x). Uma forma de instalar o Hadoop no Linux � baixando o pacote a partir de um endereço homologado pela Apache. Em nosso exemplo, a opç�o foi a oferecida pela Unicamp. Os comandos para esse tipo de instalaç�o podem ser vistos na Listagem 3.


$ cd /usr/local
$ sudo wget http://ftp.unicamp.br/pub/apache/hadoop/core/hadoop-1.2.1/
hadoop-1.2.1.tar.gz
$ sudo tar xzf hadoop-1.2.1.tar.gz
$ sudo ln -s hadoop-1.2.1 hadoop
$ sudo chown -R hadoop:hadoopgrupo hadoop-1.2.1

Listagem 3. Comandos para instalaç�o do pacote Hadoop

Logo ap�s, adicione a vari�vel de ambiente da instalaç�o Java (vari�vel $JAVA_HOME) com os comandos (confirme os locais e vers�es do Java) mostrados na Listagem 4.


$sudo nano /usr/local/hadoop/conf/haoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-7-oracle

Listagem 4. Configuraç�o da vari�vel de ambiente para o compilador Java

A instalaç�o exige que se crie um diret�rio que servir� de apoio ao armazenamento tempor�rio dos arquivos de uma aplicaç�o cliente, que ser�o manipulados no HDFS. Para isso, crie esse diret�rio com o nome tmp, executando os comandos da Listagem 5.


$sudo mkdir /home/hadoop/tmp
$sudo chown hadoop:hadoopgrupo /home/hadoop/tmp
$sudo chmod 750 /home/hadoop/tmp

Listagem 5. Diret�rio tmp para apoio ao ambiente HDFS

Agora, atualize a refer�ncia ao caminho do diret�rio no arquivo de configuraç�o, editando o arquivo core-site.xml, como � visto na Listagem 6.


$sudo nano /usr/local/hadoop/conf/core-site.xml

Listagem 6. Editando o arquivo de configuraç�o core-site.xml

Neste arquivo de configuraç�o, adicione o c�digo visto na Listagem 7 entre as tags <configuration > e </configuration > . Dentro dessa marcaç�o XML ficam todas as propriedades de configuraç�es b�sicas do Hadoop, como a localizaç�o da pasta de arquivos tempor�rios e o host do serviço do HDFS (hdfs://localhost:54310).


  <configuration>
   
    <property>
         <name>hadoop.tmp.dir</name>
         <value>/home/hadoop/tmp</value>
         <description>A base for other temporary 
           directories.</description>
    </property>
   
    <property> 
         <name>fs.default.name</name>
         <value>hdfs:
         //localhost:54310</value>
         <description>The name of the default file system. A URI whose
         scheme and authority determine the FileSystem implementation. The
         uri"s scheme determines the config property (fs.SCHEME.impl) naming
         the FileSystem implementation class. The uri"s authority is used to 
         determine the host, port, etc. for a filesystem.</description>
    </property>
   
  </configuration>

Listagem 7. Atualizando a configuraç�o do arquivo "core-site.xml"

Do mesmo modo, edite o arquivo de configuraç�o hdfs-site.xml, como visto na Listagem 8.


$ sudo nano /usr/local/hadoop/conf/hdfs-site.xml

Listagem 8. Editando o arquivo hdfs-site.xml

No c�digo deste arquivo, adicione o conte�do mostrado na Listagem 9. Na propriedade dfs.replication voc� estabelece o fator de replicaç�o padr�o dos blocos de dados no HDFS. Esse valor define o n�mero de r�plicas que ser�o criadas e, normalmente, em uma instalaç�o local do Hadoop (usada neste artigo), assume o valor �1�.


  <configuration>
    <property>
         <name>dfs.replication</name>
         <value>1</value>
         <description>Default block replication.
         The actual number of replications can be sepecified 
          when the file is created.
         The default is used if replication is not specified in create time.
         </description>
    </property>
  </configuration>

Listagem 9. Configuraç�o do arquivo hdfs-site.xml

Feito isso, formate o sistema de arquivos para inicializar as pastas do n� principal do HDFS e permitir o uso do MapReduce, conforme os comandos da Listagem 10. O resultado desse processo � visto na Figura 4.


$su - hadoop
$ /usr/local/hadoop/bin/hadoop namenode �format

Listagem 10. Formataç�o do sistema de arquivos

Figura 4.Tela com as mensagens da formataç�o do NameNode

O passo seguinte � preparar o Hadoop para ser utilizado, levantando todos os seus processos na mem�ria. Para isso, execute o arquivo de comandos start-all.sh, confirmando o processo no final com �yes�. Depois, para verificar se tudo foi corretamente executado, chame o comando jps. Veja a sequ�ncia das instruç�es na Listagem 11 e o resultado na Figura 5.


$ /usr/local/hadoop/bin/start-all.sh
$ jps

Listagem 11. Inicializaç�o do Hadoop

Figura 5. Processos do Hadoop em execuç�o

Nota:Para evitar a necessidade de digitar o caminho completo do Hadoop at� os arquivos execut�veis no momento de executar um comando, configuraremos a vari�vel de ambiente PATH . Considerando que o caminho (diret�rio) onde est�o localizados os comandos (arquivos execut�veis) � o diret�rio de instalaç�o (/usr/local/hadoop/bin), abra o arquivo bashrc (use nano ~/.bashrc) e acrescente esse caminho � vari�vel PATH usando o c�digo: export PATH=$PATH:/usr/local/hadoop/bin.

Teste do ambiente Hadoop

Para validar o ambiente, o Hadoop disponibiliza o cl�ssico exemplo de contar palavras (WordCount), que ilustra de forma did�tica a execuç�o de uma aplicaç�o MapReduce. Esse exemplo utiliza como entrada de dados um conjunto de arquivos texto, a partir dos quais a frequ�ncia das palavras ser� contada. Como sa�da, ser� gerado outro arquivo texto contendo cada palavra e a quantidade de vezes que cada uma foi encontrada.

Para ilustrar esse processamento, baixe uma coleç�o de dados sobre livros da biblioteca Gutenberg (ver seç�o Links), cujo conte�do est� dispon�vel para uso livre em diversos formatos (HTML, PDF, TXT, ePub, entre outros). Neste caso, foi feito o download do arquivo texto pg20417.txt para uma pasta chamada gutenberg, conforme demonstra os comandos da Listagem 12.


$ mkdir gutenberg
$ lynx -dump http://www.gutenberg.org./cache/epub/20417/pg20417.txt >
gutenberg/pg20417.txt

Listagem 12. Download do arquivo de entrada

Em seguida, usando o comando de c�pia de pasta (copyFromLocal) do sistema HDFS, transfira o conte�do da pasta que cont�m o arquivo de palavras (pg20417.txt) ao ambiente Hadoop. Para isto, execute: hadoop dfs -copyFromLocal gutenberg gutenberg.

Feito isso, abra a pasta do Hadoop e execute o exemplo WordCount (distribu�do no pacote do framework), como demonstra a Listagem 13. Observe que o caminho /user/hadoop/gutenberg representa a entrada (in), e /user/hadoop/gutenberg-output, a pasta com a sa�da do processo reduce.


 $ cd /usr/local/hadoop
$ hadoop jar hadoop-examples-1.2.1.jar wordcount /user/hadoop/gutenberg
 /user/hadoop/gutenberg-output

Listagem 13. Executando as funç�es map e reduce do contador de palavras

No final do MapReduce � produzido um arquivo (denominado part-r-00000) que armazena a contagem de palavras presentes nos arquivo da pasta de entrada do Hadoop. Para ver esse conte�do, execute o comando hadoop dfs -cat/user/hadoop/gutenberg-output/part-r-00000. A Figura 6 apresenta um trecho do resultado.

Figura 6 . Trecho do resultado do processo de contagem de palavras

Conclus�o

Este artigo apresentou a ferramenta Hadoop como proposta para o processamento de grandes conjuntos de dados, que aqui chamamos de Bigdata . A ideia principal do funcionamento dessa ferramenta est� no uso da t�cnica MapReduce, que permite a an�lise e tratamento desses dados facilitando a construç�o de aplicaç�es que sigam o modelo previsto em duas funç�es, uma para o map e outra para o reduce.

Definidas as funç�es do MapReduce, Hadoop realiza o processamento distribu�do em um conjunto (cluster) de computadores de baixo custo. O modelo de programaç�o e a infraestrutura dispon�vel na arquitetura MapReduce se encarregam de particionar e distribuir os dados de entrada, escalonar as execuç�es das funç�es map e reduce em m�quinas distintas, tratar as falhas e a comunicaç�o entre essas m�quinas. Para assegurar a integridade e o controle dos dados na rede, Hadoop tamb�m apresenta um sistema de arquivos distribu�do, o HDFS, fundamental para o funcionamento da arquitetura. O HDFS fornece os mecanismos que garantem a transpar�ncia na manipulaç�o dos arquivos, com segurança e alto desempenho.

As caracter�sticas supracitadas constituem o sucesso da tecnologia, mas a sua adoç�o � restrita ao dom�nio de problemas que possam ser formulados e resolvidos dentro do contexto do paradigma; no caso, os dados devem estar organizados em uma coleç�o do tipo chave/valor e o processamento deve ser dividido em duas funç�es que se complementam, o map e o reduce.

Apesar de fazer parte de um projeto de c�digo aberto, mantido pela comunidade Apache, Hadoop mostra ser, em pouco tempo de vida, uma tecnologia com maturidade e confiabilidade. Prova disso � a decis�o que v�rias empresas de tecnologia da informaç�o fizeram ao adot�-la para resolver seus problemas.

Al�m de usar essa tecnologia, gigantes como IBM, Google, Yahoo! e Oracle apostam e investem em projetos relacionados ao Hadoop e MapReduce.

Saiu na DevMedia!

Android Developer:
Aprenda a programar e depurar aplicativos no Android Studio. Com os cursos desta s�rie voc� saber� quais s�o as principais classes do Android SDK e conhecer� os componentes de aplicativo, criando os seus primeiros projetos.
MVC e Regras de neg�cio:
Em uma arquitetura MVC, temos tr�s camadas com diferentes responsabilidades. Em qual destas camadas deveria estar a regra de neg�cio da aplicaç�o? Saiba isso e muito mais nesta s�rie.

Saiba mais sobre Big Data ;)

Big Data na plataforma Java:
Neste artigo apresentaremos uma vis�o conceitual sobre o que � big data, onde se originou, seus motivadores e principais usu�rios. Demonstraremos tamb�m modelos de programaç�o como o MapReduce, assim como ferramentas Java para lidar com big data.
Analisando o Big Data na teoria e na pr�tica:
Este artigo ir� introduzir o Big Data, apresentando um pouco da historia. Tamb�m iremos analisar algumas das principais tecnologias que foram criadas com o principal objetivo de fornecer recursos para se trabalhar com os conjuntos de dados.
Big Data em pequenos neg�cios:
Veja neste artigo algumas definiç�es sobre do que se trata o Big Data e alguns exemplos de como podemos usar isso a favor dos pequenos neg�cios.

Links:

P�gina oficial do projeto Apache Hadoop
P�gina oficial do projeto Lucene
Artigo que apresenta a t�cnica MapReduce
Artigo que explora os principais recursos da arquitetura do HDFS
Site da distribuiç�o Hadoop oferecido pela Cloudera, em sua vers�o comunit�ria (aberta)
Projeto Gutenberg para livros eletr�nicos gr�tis em l�ngua portuguesa

Livros

Hadoop: The Definitive Guide - 3rd Edition. Tom White. O"Reilly. 2012. O livro aborda o tema Hadoop de forma did�tica e atualizada em sua atual vers�o (2.x), apresentando estudos de caso usados para resolver problemas no modelo mapreduce.

Hadoop: fundamentos e instala��o

Este artigo aborda os fundamentos básicos e a instalação da tecnologia Apache Hadoop em um ambiente para desenvolvimento de aplicações que manipulam grandes volumes de dados (big data).