Hadoop Tutorial: Fundamentos e Instalação do Hadoop

Por que eu devo ler este artigo: Este artigo aborda os fundamentos b�sicos e a instala��o da tecnologia Apache Hadoop em um ambiente para desenvolvimento de aplica��es que manipulam grandes volumes de dados (Big Data).

Hadoop destaca-se como uma tecnologia aberta, baseada no paradigma MapReduce, que utiliza a computa��o paralela e distribu�da para resolver o problema da escalabilidade no processamento de BigData, com garantias de toler�ncia a falhas. Das vantagens em adot�-lo, est� o fato de se utilizar aglomerados de m�quinas convencionais, tornando-o eficaz como solu��o de baixo custo de implanta��o. Ademais, com ele as empresas podem conquistar uma grande vantagem competitiva, dispondo de um mecanismo que possibilita avaliar grandes quantidades de dados em busca de novas informa��es.

Vivenciamos a era da informa��o, na qual volumes expressivos de dados s�o produzidos pelas mais diversas organiza��es e estruturas de sistemas, alcan�ando dimens�es que superam com facilidade os petabytes di�rios. Tal volume surge de diversas fontes de dados, como, por exemplo, medi��es coletadas por sensores dos mais diversos tipos, hist�rico dos servi�os oferecidos por sistemas Web, variados conte�dos produzidos pelos usu�rios em redes sociais, acesso a bases de dados de imagens e mapas, e muito mais. Tais fontes heterog�neas produzem uma quantidade de dados acima da capacidade que normalmente pode ser processada por tecnologias tradicionais de banco de dados relacional.

Nesse contexto, o termo Big Data (aqui denominado Bigdata) foi definido considerando as seguintes quest�es:

Volume de dados em grande quantidade (acima de terabytes);
Velocidade nacria��o e captura de dados brutos a taxas muito r�pidas, podendo ser arquivos em lote, obtidos de bancos de dados, ou dados gerados em tempo real (em streaming); e,
Variedade no formato dos dados, podendo ser estruturado, semiestruturado, e at� mesmo n�o estruturado, ou uma combina��o dessas varia��es. Essas tr�s quest�es est�o ilustradas na Figura 1.

**Figura 1.** As tr�s dimens�es do Bigdata: volume, variedade e velocidade

Assim, considerando as caracter�sticas extremas do Bigdata, uma nova classe de aplica��es deve ser constru�da para analisar grandes bases de dados, processar pesados c�lculos sobre esses dados, identificar comportamentos e disponibilizar servi�os especializados em seus dom�nios.

Entretanto, n�o � uma tarefa trivial implementar tais solu��es, pois h�, na maioria das vezes, a inviabilidade de execut�-las no modelo computacional tradicional, usando tecnologias baseadas em banco de dados relacional, e processando em m�quinas com escalabilidade baixa. Os ditos problemas grandes ou complexos chegam a consumir horas ou dias de processamento nas arquiteturas convencionais. Embora em constante evolu��o, os recursos computacionais convencionais s�o insuficientes para acompanhar a crescente complexidade das novas aplica��es.

Como proposta para superar os desafios, surge o Apache Hadoop, um framework para o processamento de grandes quantidades de dados em aglomerados e grades computacionais. A ideia de promover solu��es para os desafios dos sistemas distribu�dos em uma s� plataforma � o ponto central do projeto Hadoop. Nessa plataforma, problemas como integridade dos dados, disponibilidade dos n�s, escalabilidade da aplica��o e recupera��o de falhas s�o simplificadas para quem desenvolve as aplica��es.

Al�m disso, seu modelo de programa��o e sistema de armazenamento dos dados promove um r�pido processamento, muito superior �s outras tecnologias similares. Atualmente, al�m de estar consolidado no mundo empresarial, o Hadoop tem obtido crescente apoio da comunidade acad�mica, proporcionando, assim, estudos cient�ficos e pr�ticos.

Com base em tudo o que foi citado, este artigo apresenta os fundamentos das t�cnicas e dos conceitos envolvidos no projeto Apache Hadoop, em especial o modelo de programa��o MapReduce. Em seguida, s�o detalhadas as etapas para a instala��o e configura��o de um ambiente Hadoop a ser utilizado no desenvolvimento e testes de aplica��es Bigdata.

O que � o Apache Hadoop?

O Apache Hadoop � um framework open source para o armazenamento e processamento de dados em larga escala. Ele oferece como ferramentas principais uma implementa��o do modelo MapReduce, respons�vel pelo processamento distribu�do, e o Hadoop Distributed File System (HDFS), para armazenamento de grandes conjuntos de dados, tamb�m de forma distribu�da.

Embora recente, o Apache Hadoop tem se destacado como uma ferramenta eficaz, sendo utilizado por grandes corpora��es como IBM, Oracle, Facebook, Yahoo!, entre outras. Mas para chegar nesse ponto, alguns eventos importantes ocorreram nos �ltimos dez anos, como demonstram os fatos hist�ricos a seguir:

Fevereiro de 2003: Jeffrey Dean e Sanjay Ghemawat, dois engenheiros do Google, desenvolvem a tecnologia MapReduce, que possibilitou otimizar a indexa��o e cataloga��o dos dados sobre as p�ginas Web e suas liga��es. O MapReduce permite dividir um grande problema em v�rios peda�os e distribu�-los em diversos computadores. Essa t�cnica deixou o sistema de busca do Google mais r�pido mesmo sendo executado em computadores convencionais e menos confi�veis, diminuindo assim os custos ligados � infraestrutura;
Outubro de 2003: O Google desenvolve o Google File System, um sistema de arquivos distribu�do o GoogleFS (depois chamado de GFS), criado para dar suporte ao armazenamento e processamento do grande volume de dados da tecnologia MapReduce;
Dezembro de 2004: o Google publica o artigo Simplified Data Processing on Large Clusters, de autoria dos engenheiros Dean e Ghemawat, onde eles apresentam os principais conceitos e caracter�sticas da tecnologia MapReduce, por�m, sem detalhes sobre a implementa��o;
Dezembro de 2005: o consultor de software Douglas Cutting divulgou a implementa��o de uma vers�o do MapReduce e do sistema de arquivos distribu�dos com base nos artigos do GFS e do MapReduce publicados pelos engenheiros do Google. A implementa��o faz parte do subprojeto Nutch, adotado pela comunidade de software livre para criar um motor de busca na Web, normalmente denominado web crawler (um software que automatiza a indexa��o de p�ginas) e um analisador de formato de documentos parser . Tempos depois o Nutch seria hospedado como o projeto Lucene, na Apache Software Foundation , tendo como principal fun��o fornecer um poderoso mecanismo de busca e indexa��o de documentos armazenados em diversos formatos, como arquivos de texto, p�ginas web, planilhas eletr�nicas, ou qualquer outro formato do qual se possa extrair informa��o textual;
Fevereiro de 2006: a empresa Yahoo! decide contratar Cutting e investir no projeto Nutch, mantendo o c�digo aberto. Nesse mesmo ano, o projeto recebe o nome de Hadoop, passando a ser um projeto independente da Apache Software Foundation;
Abril de 2007: o Yahoo! anuncia ter executado com sucesso uma aplica��o Hadoop em um aglomerado de 1.000 m�quinas. Tamb�m nessa data, o Yahoo! passa a ser o maior patrocinador do projeto. Alguns anos depois, a empresa j� contava com mais de 40.000 m�quinas executando o Hadoop (White, 2010);
Janeiro de 2008: o Apache Hadoop, na vers�o 0.15.2, amadurece como um projeto incubado na funda��o Apache, e torna-se um dos principais projetos abertos da organiza��o;
Julho de 2008: uma aplica��o Hadoop em um dos aglomerados do Yahoo! quebra o recorde mundial de velocidade de processamento na ordena��o de 1 terabyte de dados. O aglomerado era composto de 910 m�quinas e executou a ordena��o em 209 segundos, superando o recorde anterior que era de 297 segundos;
Setembro de 2009: a empresa Cloudera, especializa em Bigdata, contrata Cutting como l�der do projeto. Cloudera � uma empresa que redistribui uma vers�o comercial derivada do Apache Hadoop;
Dezembro de 2011: passados seis anos desde seu lan�amento, o Apache Hadoop disponibiliza sua vers�o est�vel (a 1.0.0). Entre as melhorias, destaca-se o uso do protocolo de autentica��o de rede Kerberos, para maior seguran�a de rede; a incorpora��o do subprojeto HBase, oferecendo suporte a BigTable; e o suporte � interface WebHDFS, que permite o acesso HTTP para leitura e escrita de dados;
Maio de 2012: a Apache faz o lan�amento da vers�o da 2.0 do Hadoop, incluindo alta disponibilidade no sistema de arquivos (HDFS) e melhorias no c�digo.

Ao ser hospedado como um projeto da Apache Software Foundation, o Hadoop segue o modelo de licenciamento da Apache, bem mais flex�vel que outras modalidades de licen�a para software livre, permitindo modifica��es e redistribui��o do c�digo-fonte. Dessa forma, v�rias empresas surgiram no mercado distribuindo implementa��es do Hadoop.

Cada uma dessas implementa��es normalmente acrescenta novas funcionalidades, aplicam especificidades de um nicho de mercado, ou ainda se limitam a presta��o de servi�os como implanta��o, suporte e treinamento. Dentre algumas empresas com estes objetivos temos a Amazon Web Service, Cloudera, Hortonworks, KarmaSphere, Pentaho e Tresada. Atualmente, a Cloudera � uma das l�deres no mercado, chefiada por Douglas Cutting, um dos criadores do Apache Hadoop original.

Nota: A licen�a Apache exige a inclus�o do aviso de direitos autorais (copyright) e termo de responsabilidade, mas n�o � uma licen�a totalmente livre, comcopyleft, permitindo seu uso em um software comercial.

Arquitetura Hadoop

Os componentes chave do Hadoop s�o o modelo de programa��o MapReduce e o sistema de arquivos distribu�do HDFS. Entretanto, em meio a sua evolu��o, novos subprojetos, que s�o incorporados como componentes � arquitetura Hadoop, completam a infraestrutura do framework para resolver problemas espec�ficos. Uma vis�o simplificada dessa organiza��o de componentes pode ser vista na Figura 2.

Na camada de armazenamento de dados h� o sistema de arquivos distribu�do Hadoop Distributed File System (HDFS), um dos principais componentes do framework. J� na camada de processamento de dados temos o MapReduce, que tamb�m figura como um dos principais subprojetos do Hadoop. Na camada de acesso aos dados s�o disponibilizadas ferramentas como Pig, Hive, Avro, Mahout, entre outras.

Estas ferramentas tendem a facilitar a an�lise e consulta dos dados, fornecendo uma linguagem de consulta similar �s utilizadas em bancos de dados relacionais (como a SQL, por exemplo). Assim, todo um ecossistema em volta do Hadoop � criado com ferramentas que suprem necessidades espec�ficas; por exemplo, ZooKeeper, Flume e Chukwa, que melhoram a camada de gerenciamento. Essas ferramentas fornecem uma interface com o usu�rio que busca diminuir as dificuldades encontradas no manuseio das aplica��es que rodam nessa plataforma.

Para funcionar, uma aplica��o Hadoop exige no m�nimo a utiliza��o das ferramentas da camada de armazenamento (HDFS) e processamento MapReduce. As demais camadas podem ser adicionadas conforme a necessidade. A seguir, cada componente � explicado em sua ess�ncia.

Componentes principais

O projeto Hadoop, em sua vers�o est�vel (a 1.0), atualmente sob a tutela da Funda��o Apache, inclui os seguintes m�dulos, mantidos como subprojetos:

Hadoop Common: cont�m um conjunto de utilit�rios e a estrutura base que d� suporte aos demais subprojetos do Hadoop. Utilizado em toda a aplica��o, possui diversas bibliotecas como, por exemplo, as utilizadas para serializa��o de dados e manipula��o de arquivos. � neste subprojeto tamb�m que s�o disponibilizadas as interfaces para outros sistemas de arquivos, tais como Amazon S3 e CloudSource;
Hadoop MapReduce: implementa um modelo de programa��o na forma de uma biblioteca de classes especializadas no processamento de conjuntos de dados distribu�dos em um aglomerado computacional. Abstrai toda a computa��o paralela em apenas duas fun��es: Map e Reduce;
Hadoop Distributed File System (HDFS): um sistema de arquivos distribu�do nativo do Hadoop. Permite o armazenamento e transmiss�o de grandes conjuntos de dados em m�quinas de baixo custo. Possui mecanismos que o caracteriza como um sistema altamente tolerante a falhas.

Componentes adicionais

Al�m desses, h� outros projetos na comunidade Apache que adicionam funcionalidades ao Hadoop, como:

Ambari: ferramenta baseada na Web para o suporte, gerenciamento e monitoramento de outros m�dulos Hadoop, como HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig e Sqoop;
Avro: sistema de serializa��o de dados;
Cassandra: banco de dados escal�vel, com toler�ncia a falhas;
Flume e Chukwa: sistemas que tratam da coleta de ocorr�ncias (logs) para o monitoramento do Hadoop;
HBase: banco de dados escal�vel e distribu�do que suporta o armazenamento de dados estruturados para grandes tabelas;
Hive: infraestrutura de data warehouse que fornece sumariza��o de dados e consultas adhoc;
Mahout: sistema para desenvolvimento de aplica��es de aprendizagem de m�quina e biblioteca com fun��es de minera��o de dados;
Pig:fornece uma linguagem de consulta de alto n�vel (PigLatin) orientada a fluxo de dados, e uma estrutura de execu��o para computa��o paralela;
ZooKeeper: servi�o de coordena��o de alto desempenho para aplica��es distribu�das.

Funcionamento da arquitetura b�sica

O Hadoop fornece uma arquitetura para que aplicativos MapReduce funcionem de forma distribu�da em um cluster de m�quinas, organizadas em uma m�quina mestre e v�rias escravo. Para simplificar o desenvolvimento dessas aplica��es, � poss�vel instalar e executar o framework no modo simplificado, utilizando apenas uma m�quina (que ir� simular um ambiente paraleliz�vel/distribu�do).

Para que o Hadoop funcione, � necess�rios cinco processos: NameNode, DataNode, SecondaryNameNode, JobTracker e TaskTracker. Os tr�s primeiros s�o integrantes do modelo de programa��o MapReduce, e os dois �ltimos do sistema de arquivo HDFS. Os componentes NameNode, JobTracker e SecondaryNameNode s�o �nicos para toda a aplica��o, enquanto que o DataNode e JobTracker s�o instanciados para cada m�quina do cluster.

Considerando os dois principais componentes do Hadoop (MapReduce e HDFS), a arquitetura b�sica ser� explica a seguir.

HDFS (Hadoop Distributed File System)

Um sistema de arquivos distribu�do � respons�vel pela organiza��o, armazenamento, localiza��o, compartilhamento e prote��o de arquivos que est�o distribu�dos em computadores de uma rede. Em sistemas distribu�dos, quando mais de um usu�rio tenta gravar um mesmo arquivo simultaneamente, � necess�rio um controle da concorr�ncia (acesso simult�neo ao mesmo recurso) para que haja uma opera��o at�mica dos processos a fim de garantir a consist�ncia das informa��es.

Neste caso, um sistema de arquivos distribu�dos deve garantir a atomicidade nas opera��es de leitura, escrita, cria��o ou remo��o de um arquivo, de forma transparente para quem manipula os dados, como se fosse similar a um sistema de arquivos local.

Nota: Um sistema de arquivos � um componente do sistema operacional que permite ao usu�rio interagir com os arquivos e diret�rios, seja para salvar, modificar ou excluir arquivos e diret�rios (pastas), bem como instalar, executar ou configurar programas. Um sistema de arquivos distribu�do faz tudo isso, mas em um ambiente de rede, onde os arquivos est�o fisicamente espalhados em m�quinas distintas. Para quem usa tais arquivos, o sistema deve permitir as mesmas facilidades de um sistema de arquivos local.

O HDFS atua como um sistema de arquivos distribu�do, localizado na camada de armazenamento do Hadoop, sendo otimizado para alto desempenho na leitura e escrita de grande arquivos (acima dos gigabytes) que est�o localizados em computadores (n�s) de um cluster.

Dentre as caracter�sticas do HDFS est�o a escalabilidade e disponibilidade gra�as � replica��o de dados e toler�ncia a falhas. O sistema se encarrega de quebrar os arquivos em partes menores, normalmente blocos de 64MB, e replicar os blocos um n�mero configurado de vezes (pelo menos tr�s c�pias no modo cluster, e um no modo local) em servidores diferentes, o que torna o processo tolerante a falhas, tanto em hardware quanto em software.

O fato � que cada servidor tem muitos elementos com uma probabilidade de falha, o que significa que sempre haver� algum componente do HDFS falhando. Por serem cr�ticas, falhas devem ser detectadas de forma r�pida e eficientemente resolvidas a tempo de evitar paradas no sistema de arquivos do Hadoop.

A arquitetura do HDFS � estruturada em master-slave (mestre-escravo), com dois processos principais, que s�o:

Namenode: respons�vel por gerenciar os dados (arquivos) armazenados no HDFS, registrando as informa��es sobre quais datanodes s�o respons�veis por quais blocos de dados de cada arquivo, organizando todas essas informa��es em uma tabela de metadados. Suas fun��es incluem mapear a localiza��o, realizar a divis�o dos arquivos em blocos, encaminhar os blocos aos n�s escravos, obter os metadados dos arquivos e controlar a localiza��o de suas r�plicas. Como o NameNode � constantemente acessado, por quest�es de desempenho, ele mant�m todas as suas informa��es em mem�ria. Ele integra o sistema HDFS e fica localizado no n� mestre da aplica��o, juntamente com o JobTracker;
Datanode: respons�vel pelo armazenamento do conte�do dos arquivos nos computadores escravos. Como o HDFS � um sistema de arquivos distribu�do, � comum a exist�ncia de diversas inst�ncias de DataNode em uma aplica��o Hadoop, permitindo que os arquivos sejam particionados em blocos e ent�o replicados em m�quinas diferentes. Um DataNode poder� armazenar m�ltiplos blocos, inclusive de diferentes arquivos, entretanto, eles precisam se reportar constantemente ao NameNode, informando-o sobre as opera��es que est�o sendo realizadas nos blocos.

MapReduce

O MapReduce � um modelo computacional para processamento paralelo das aplica��es. Ele abstrai as dificuldades do trabalho com dados distribu�dos, eliminando quaisquer problemas que o compartilhamento de informa��es pode trazer em um sistema dessa natureza. Consiste das seguintes fun��es:

Map: Respons�vel por receber os dados de entrada, estruturados em uma cole��o de pares chave/valor. Tal fun��o map deve ser codificada pelo desenvolvedor, atrav�s de programas escritos em Java ou em linguagens suportadas pelo Hadoop;
Shuffle: A etapa de shuffle � respons�vel por organizar o retorno da fun��o Map, atribuindo para a entrada de cada Reduce todos os valores associados a uma mesma chave. Esta etapa � realizada pela biblioteca do MapReduce;
Reduce: Por fim, ao receber os dados de entrada, a fun��o Reduce retorna uma lista de chave/valor contendo zero ou mais registros, semelhante ao Map, que tamb�m deve ser codificada pelo desenvolvedor.

A arquitetura do MapReduce segue o mesmo princ�pio master-slave, necessitando de tr�s processos que dar�o suporte � execu��o das fun��es map e reduce do usu�rio, a saber:

JobTracker: recebe a aplica��o MapReduce e programa as tarefas map e reduce para execu��o, coordenando as atividades nos TaskTrackers. Sua fun��o ent�o � designar diferentes n�s para processar as tarefas de uma aplica��o e monitor�-las enquanto estiverem em execu��o. Um dos objetivos do monitoramento �, em caso de falha, identificar e reiniciar uma tarefa no mesmo n�, ou, em caso de necessidade, em um n� diferente;
TaskTracker: processo respons�vel por executar as tarefas de map e reduce e informar o progresso das atividades. Assim como os DataNodes, uma aplica��o Hadoop � composta por diversas inst�ncias de TaskTrackers, cada uma em um n� escravo. Um TaskTracker executa uma tarefa map ou uma tarefa reduce designada a ele. Como os TaskTrackers rodam sobre m�quinas virtuais, � poss�vel criar v�rias m�quinas virtuais em uma mesma m�quina f�sica, de forma a explorar melhor os recursos computacionais;
SecondaryNameNode: utilizado para auxiliar o NameNode a manter seu servi�o, e ser uma alternativa de recupera��o no caso de uma falha do NameNode. Sua �nica fun��o � realizar pontos de checagem (checkpointing) do NameNode em intervalos pr�-definidos, de modo a garantir a sua recupera��o e atenuar o seu tempo de reinicializa��o.

Na Figura 3 observa-se como os processos da arquitetura do Hadoop est�o interligados, organizados em n�s mestre e escravos. O mestre cont�m o NameNode, o JobTracker e possivelmente o SecondaryNameNode. J� a segunda camada, constitu�da de n�s escravos, comporta em cada uma de suas inst�ncias um TaskTracker e um DataNode, vinculados respectivamente ao JobTracker e ao NameNode do n� mestre.

Uma tarefa (task) que roda em um n� escravo pode ser tanto de uma fun��o map quanto de uma fun��o reduce.

**Figura 3**. Funcionamento da arquitetura b�sica do Hadoop

Instala��o do ambiente Hadoop

O Hadoop possui tr�s formas de instala��o e execu��o da plataforma:

Modo Local ou Independente: Por padr�o, o Hadoop foi configurado para executar em modo independente n�o distribu�do. Esse modo � �til para desenvolver e testar um aplicativo;
Modo Pseudo distribu�do: Pode executar em um �nico n� em modo pseudo distribu�do. Nesse caso, cada inst�ncia de processo Hadoop executa como um processo Java diferente;
Modo Totalmente distribu�do: O Hadoop � configurado em cluster com m�quinas f�sicas (ou virtualizadas), cada qual com um endere�o IP v�lido.

Na pr�tica, � poss�vel alternar entre essas configura��es bastando que se editem as propriedades relacionadas em tr�s arquivos: core-site.xml, hdfs-site.xml e mapred-site.xml. A seguir, � realizada a instala��o do modo padr�o (local), e no final � demonstrado o funcionamento da plataforma com a execu��o de uma aplica��o exemplo.

Configura��o do ambiente no modo local

O Hadoop est� dispon�vel como pacote open-source no portal da Apache (ver se��o Links). Neste endere�o voc� encontra a vers�o mais est�vel (1.2.x), a vers�o preliminar de atualiza��o (a 2.x) e todas as vers�es anteriores a mais est�vel.

Entretanto, h� no mercado vers�es que empacotam todo o ambiente de execu��o, bem como as configura��es da plataforma operacional para a maioria das distribui��es Linux atualmente em uso (Ubuntu, CentOS, RedHat, etc.).

Entre essas vers�es comerciais, por�m gratuitas, uma das mais utilizadas � a ofertada pela empresa Cloudera (ver se��o Links), denominada CDH (atualmente nas vers�es 3.x e 4.x), que pode ser instalada em uma m�quina virtual (VMware, por exemplo), baseada no Linux CentOS.

Saiba mais: Guia do Programador Java

Para efeito de demonstra��o, foi escolhida a instala��o padr�o do projeto Apache. Neste caso, � necess�rio verificar se a instala��o Linux escolhida est� configurada com os pacotes Java e SSH. Para os exemplos deste artigo, foi utilizado o seguinte ambiente: Linux Ubuntu 12.x, Java JDK 1.7, Apache Hadoop-1.2.1.

Ap�s a defini��o e ativa��o do sistema operacional Linux, � recomendado criar um usu�rio e um grupo dedicados para o Hadoop, executando os comandos vistos na Listagem 1.


// Criando grupo com o nome �hadoopgrupo�: 
$ sudo addgroup hadoopgrupo 
// Adicionado o usu�rio �hadoop� ao grupo: 
$ sudo adduser --ingroup hadoopgrupo hadoop

Listagem 1. Comandos para cria��o de usu�rio e grupo

Em seguida, providencie uma chave de autentica��o SSH. Isso se faz necess�rio porque o Hadoop utiliza conex�o segura (SSH) para gerenciar seus n�s (mestre e escravos). No caso de conex�o local (localhost), n�o h� necessidade de senha na configura��o do SSH. Os comandos vistos na Listagem 2 mostram como criar a chave de conex�o SSH para o localhost.


$ ssh-keygen -t rsa -P ��
$ cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Listagem 2. Comandos para cria��o da chave SSH

Certifique-se que o Hadoop esteja instalado na vers�o definida neste artigo (a 1.2.x). Uma forma de instalar o Hadoop no Linux � baixando o pacote a partir de um endere�o homologado pela Apache. Em nosso exemplo, a op��o foi a oferecida pela Unicamp. Os comandos para esse tipo de instala��o podem ser vistos na Listagem 3.


$ cd /usr/local
$ sudo wget http://ftp.unicamp.br/pub/apache/hadoop/core/hadoop-1.2.1/
hadoop-1.2.1.tar.gz
$ sudo tar xzf hadoop-1.2.1.tar.gz
$ sudo ln -s hadoop-1.2.1 hadoop
$ sudo chown -R hadoop:hadoopgrupo hadoop-1.2.1

Listagem 3. Comandos para instala��o do pacote Hadoop

Logo ap�s, adicione a vari�vel de ambiente da instala��o Java (vari�vel $JAVA_HOME) com os comandos (confirme os locais e vers�es do Java) mostrados na Listagem 4.


$sudo nano /usr/local/hadoop/conf/haoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-7-oracle

Listagem 4. Configura��o da vari�vel de ambiente para o compilador Java

A instala��o exige que se crie um diret�rio que servir� de apoio ao armazenamento tempor�rio dos arquivos de uma aplica��o cliente, que ser�o manipulados no HDFS. Para isso, crie esse diret�rio com o nome tmp, executando os comandos da Listagem 5.


$sudo mkdir /home/hadoop/tmp
$sudo chown hadoop:hadoopgrupo /home/hadoop/tmp
$sudo chmod 750 /home/hadoop/tmp

Listagem 5. Diret�rio tmp para apoio ao ambiente HDFS

Agora, atualize a refer�ncia ao caminho do diret�rio no arquivo de configura��o, editando o arquivo core-site.xml, como � visto na Listagem 6.


$sudo nano /usr/local/hadoop/conf/core-site.xml

Listagem 6. Editando o arquivo de configura��o core-site.xml

Neste arquivo de configura��o, adicione o c�digo visto na Listagem 7 entre as tags <configuration > e </configuration > . Dentro dessa marca��o XML ficam todas as propriedades de configura��es b�sicas do Hadoop, como a localiza��o da pasta de arquivos tempor�rios e o host do servi�o do HDFS (hdfs://localhost:54310).


  <configuration>
   
    <property>
         <name>hadoop.tmp.dir</name>
         <value>/home/hadoop/tmp</value>
         <description>A base for other temporary 
           directories.</description>
    </property>
   
    <property> 
         <name>fs.default.name</name>
         <value>hdfs:
         //localhost:54310</value>
         <description>The name of the default file system. A URI whose
         scheme and authority determine the FileSystem implementation. The
         uri"s scheme determines the config property (fs.SCHEME.impl) naming
         the FileSystem implementation class. The uri"s authority is used to 
         determine the host, port, etc. for a filesystem.</description>
    </property>
   
  </configuration>

Listagem 7. Atualizando a configura��o do arquivo "core-site.xml"

Do mesmo modo, edite o arquivo de configura��o hdfs-site.xml, como visto na Listagem 8.


$ sudo nano /usr/local/hadoop/conf/hdfs-site.xml

Listagem 8. Editando o arquivo hdfs-site.xml

No c�digo deste arquivo, adicione o conte�do mostrado na Listagem 9. Na propriedade dfs.replication voc� estabelece o fator de replica��o padr�o dos blocos de dados no HDFS. Esse valor define o n�mero de r�plicas que ser�o criadas e, normalmente, em uma instala��o local do Hadoop (usada neste artigo), assume o valor �1�.


  <configuration>
    <property>
         <name>dfs.replication</name>
         <value>1</value>
         <description>Default block replication.
         The actual number of replications can be sepecified 
          when the file is created.
         The default is used if replication is not specified in create time.
         </description>
    </property>
  </configuration>

Listagem 9. Configura��o do arquivo hdfs-site.xml

Feito isso, formate o sistema de arquivos para inicializar as pastas do n� principal do HDFS e permitir o uso do MapReduce, conforme os comandos da Listagem 10. O resultado desse processo � visto na Figura 4.


$su - hadoop
$ /usr/local/hadoop/bin/hadoop namenode �format

Listagem 10. Formata��o do sistema de arquivos

**Figura 4**.Tela com as mensagens da formata��o do NameNode

O passo seguinte � preparar o Hadoop para ser utilizado, levantando todos os seus processos na mem�ria. Para isso, execute o arquivo de comandos start-all.sh, confirmando o processo no final com �yes�. Depois, para verificar se tudo foi corretamente executado, chame o comando jps. Veja a sequ�ncia das instru��es na Listagem 11 e o resultado na Figura 5.


$ /usr/local/hadoop/bin/start-all.sh
$ jps

Listagem 11. Inicializa��o do Hadoop

Nota:Para evitar a necessidade de digitar o caminho completo do Hadoop at� os arquivos execut�veis no momento de executar um comando, configuraremos a vari�vel de ambiente PATH . Considerando que o caminho (diret�rio) onde est�o localizados os comandos (arquivos execut�veis) � o diret�rio de instala��o (/usr/local/hadoop/bin), abra o arquivo bashrc (use nano ~/.bashrc) e acrescente esse caminho � vari�vel PATH usando o c�digo: export PATH=$PATH:/usr/local/hadoop/bin.

Teste do ambiente Hadoop

Para validar o ambiente, o Hadoop disponibiliza o cl�ssico exemplo de contar palavras (WordCount), que ilustra de forma did�tica a execu��o de uma aplica��o MapReduce. Esse exemplo utiliza como entrada de dados um conjunto de arquivos texto, a partir dos quais a frequ�ncia das palavras ser� contada. Como sa�da, ser� gerado outro arquivo texto contendo cada palavra e a quantidade de vezes que cada uma foi encontrada.

Para ilustrar esse processamento, baixe uma cole��o de dados sobre livros da biblioteca Gutenberg (ver se��o Links), cujo conte�do est� dispon�vel para uso livre em diversos formatos (HTML, PDF, TXT, ePub, entre outros). Neste caso, foi feito o download do arquivo texto pg20417.txt para uma pasta chamada gutenberg, conforme demonstra os comandos da Listagem 12.


$ mkdir gutenberg
$ lynx -dump http://www.gutenberg.org./cache/epub/20417/pg20417.txt >
gutenberg/pg20417.txt

Listagem 12. Download do arquivo de entrada

Em seguida, usando o comando de c�pia de pasta (copyFromLocal) do sistema HDFS, transfira o conte�do da pasta que cont�m o arquivo de palavras (pg20417.txt) ao ambiente Hadoop. Para isto, execute: hadoop dfs -copyFromLocal gutenberg gutenberg.

Feito isso, abra a pasta do Hadoop e execute o exemplo WordCount (distribu�do no pacote do framework), como demonstra a Listagem 13. Observe que o caminho /user/hadoop/gutenberg representa a entrada (in), e /user/hadoop/gutenberg-output, a pasta com a sa�da do processo reduce.


 $ cd /usr/local/hadoop
$ hadoop jar hadoop-examples-1.2.1.jar wordcount /user/hadoop/gutenberg
 /user/hadoop/gutenberg-output

Listagem 13. Executando as fun��es map e reduce do contador de palavras

No final do MapReduce � produzido um arquivo (denominado part-r-00000) que armazena a contagem de palavras presentes nos arquivo da pasta de entrada do Hadoop. Para ver esse conte�do, execute o comando hadoop dfs -cat/user/hadoop/gutenberg-output/part-r-00000. A Figura 6 apresenta um trecho do resultado.

**Figura 6** . Trecho do resultado do processo de contagem de palavras

Conclus�o

Este artigo apresentou a ferramenta Hadoop como proposta para o processamento de grandes conjuntos de dados, que aqui chamamos de Bigdata . A ideia principal do funcionamento dessa ferramenta est� no uso da t�cnica MapReduce, que permite a an�lise e tratamento desses dados facilitando a constru��o de aplica��es que sigam o modelo previsto em duas fun��es, uma para o map e outra para o reduce.

Definidas as fun��es do MapReduce, Hadoop realiza o processamento distribu�do em um conjunto (cluster) de computadores de baixo custo. O modelo de programa��o e a infraestrutura dispon�vel na arquitetura MapReduce se encarregam de particionar e distribuir os dados de entrada, escalonar as execu��es das fun��es map e reduce em m�quinas distintas, tratar as falhas e a comunica��o entre essas m�quinas. Para assegurar a integridade e o controle dos dados na rede, Hadoop tamb�m apresenta um sistema de arquivos distribu�do, o HDFS, fundamental para o funcionamento da arquitetura. O HDFS fornece os mecanismos que garantem a transpar�ncia na manipula��o dos arquivos, com seguran�a e alto desempenho.

As caracter�sticas supracitadas constituem o sucesso da tecnologia, mas a sua ado��o � restrita ao dom�nio de problemas que possam ser formulados e resolvidos dentro do contexto do paradigma; no caso, os dados devem estar organizados em uma cole��o do tipo chave/valor e o processamento deve ser dividido em duas fun��es que se complementam, o map e o reduce.

Apesar de fazer parte de um projeto de c�digo aberto, mantido pela comunidade Apache, Hadoop mostra ser, em pouco tempo de vida, uma tecnologia com maturidade e confiabilidade. Prova disso � a decis�o que v�rias empresas de tecnologia da informa��o fizeram ao adot�-la para resolver seus problemas.

Al�m de usar essa tecnologia, gigantes como IBM, Google, Yahoo! e Oracle apostam e investem em projetos relacionados ao Hadoop e MapReduce.

Saiu na DevMedia!

Android Developer:
Aprenda a programar e depurar aplicativos no Android Studio. Com os cursos desta s�rie voc� saber� quais s�o as principais classes do Android SDK e conhecer� os componentes de aplicativo, criando os seus primeiros projetos.
MVC e Regras de neg�cio:
Em uma arquitetura MVC, temos tr�s camadas com diferentes responsabilidades. Em qual destas camadas deveria estar a regra de neg�cio da aplica��o? Saiba isso e muito mais nesta s�rie.

Saiba mais sobre Big Data ;)

Big Data na plataforma Java:
Neste artigo apresentaremos uma vis�o conceitual sobre o que � big data, onde se originou, seus motivadores e principais usu�rios. Demonstraremos tamb�m modelos de programa��o como o MapReduce, assim como ferramentas Java para lidar com big data.
Analisando o Big Data na teoria e na pr�tica:
Este artigo ir� introduzir o Big Data, apresentando um pouco da historia. Tamb�m iremos analisar algumas das principais tecnologias que foram criadas com o principal objetivo de fornecer recursos para se trabalhar com os conjuntos de dados.
Big Data em pequenos neg�cios:
Veja neste artigo algumas defini��es sobre do que se trata o Big Data e alguns exemplos de como podemos usar isso a favor dos pequenos neg�cios.

Links:

P�gina oficial do projeto Apache Hadoop
P�gina oficial do projeto Lucene
Artigo que apresenta a t�cnica MapReduce
Artigo que explora os principais recursos da arquitetura do HDFS
Site da distribui��o Hadoop oferecido pela Cloudera, em sua vers�o comunit�ria (aberta)
Projeto Gutenberg para livros eletr�nicos gr�tis em l�ngua portuguesa

Livros

Hadoop: The Definitive Guide - 3rd Edition. Tom White. O"Reilly. 2012. O livro aborda o tema Hadoop de forma did�tica e atualizada em sua atual vers�o (2.x), apresentando estudos de caso usados para resolver problemas no modelo mapreduce.

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Por Claudio Em 2013

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

C�zar Carmo

N�vel 15

Instalei o Linux Mint. Para o hadoop preciso do Ubuntu? J� tewnho Java 11.0 instalado, como fa�o para reinstalar no Linux o indicado? tem como me ajudar a traduzir estes comando linux para que eu siga o passo a passo de instala��o corretamente? Como estou numa trilha de aprendizagem inicial estou teno muita dificuldade, principalmente com o ambiente Linux.

há +1 ano

Ver coment�rio anterior

Marcio Souza

DevMedia

Ol� C�sar, n�o entendi muito bem. Voc� tem o Mint instalado, mas n�o sabe us�-lo e quer usar o Ubuntu, � isso? Ou � o Java que voc� quer instalar no seu Mint?

Sobre os comandos, aqui temos uma lista de comandos do Linux, aconselho a estuda-la para usar o Linux:

Comandos Importantes Linux
Veja neste artigo uma lista dos comandos mais importantes no Linux e uma breve explica��o de cada um deles: https://www.devmedia.com.br/comandos-importantes-linux/23893

Um tutorial sobre como instalar o Hadoop no Linux Mint:

- Apache Hadoop Quick-Start for Linux Mint 18.1 Serena Linux Easy Guide
https://tutorialforlinux.com/2017/02/16/apache-hadoop-quickstart-for-linux-mint-18-1-serena-linux-easy-guide/

Sobre a instala��o do Java:

- How to install Oracle JDK on Linux Mint
https://community.linuxmint.com/tutorial/view/1372

há +1 ano

<Formação completa Programador FullStack/>

Conteúdo Front-end, Back-end e Mobile
Plano de estudo linear
+10 mil exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Suporte 365 dias do ano
12 meses de acesso

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Hadoop: fundamentos e instala��o

Este artigo aborda os fundamentos b�sicos e a instala��o da tecnologia Apache Hadoop em um ambiente para desenvolvimento de aplica��es que manipulam grandes volumes de dados (big data).