Hadoop MapReduce: Introdução a Big Data

O MapReduce � um modelo de programa��o que permite o processamento de dados massivos em um algoritmo paralelo e distribu�do, geralmente em um cluster de computadores. Hoje, o Hadoop � utilizado em larga escala por grandes corpora��es, como Facebook e Twitter, em aplica��es Big Data. Este tema ser� �til para aplica��es que envolvam dados massivos para processamento paralelo (embora seja interessante para processamento de quaisquer dados), geralmente utilizando um cluster de computadores.

A capacidade dos discos r�gidos e outros elementos de armazenamento aumentaram bastante nos �ltimos anos, mas a velocidade de leitura e escrita dos mesmos n�o acompanhou o mesmo ritmo. Como um exemplo, a leitura de todo um disco r�gido 20 anos atr�s levava cerca de cinco minutos. Atualmente, leva mais de duas horas e meia. Trata-se de um longo per�odo para ler todos os dados, e escrever � ainda mais lento. A solu��o mais �bvia para resolver esse problema � ler/escrever os dados em paralelo, utilizando v�rios discos. Deste modo, se existem 100 HDs, cada um com 1% do total dos dados, por exemplo, a leitura pode ser realizada 100 vezes mais rapidamente, em teoria.

No caso dessa leitura/escrita paralela dos dados, dois problemas s�o bastante comuns. O primeiro � bastante �bvio: se h� 100 vezes mais discos r�gidos, a chance de existir falha em um deles � 100 vezes maior, o que pode ocasionar perda de dados. Para evitar esse problema, geralmente utiliza-se a replica��o, onde c�pias de seguran�a dos dados s�o mantidas em diferentes discos. Outro problema � que muitas tarefas de an�lise de dados necessitam combinar dados �espalhados� em discos diferentes. Entretanto, esses problemas n�o geram dores de cabe�a aos programadores, pois o MapReduce oferece um modelo de programa��o que os abstrai, uma vez que o processamento � realizado atrav�s de uma combina��o entre chaves e valores (keys e values) que podem estar em diferentes discos.

Checklist Programador Java: Tenha ao seu alcance tudo que precisa para se tornar um programador Java.

No meio da an�lise de dados, um conceito que ganha for�a, e no qual grande parte do MapReduce est� baseado, � o Big Data. Trata-se de um termo empregado para descrever o crescimento, o uso e a disponibilidade das informa��es, sejam elas estruturadas ou n�o. Para o Big Data, o importante n�o � a coleta de grandes quantidades de dados, mas sim como eles s�o processados. O potencial que ele traz para as empresas � imenso e para utiliz�-lo, elas precisam ser capazes de aproveitar as informa��es contidas em suas gigantescas bases de dados para tomar as melhores decis�es. Em outras palavras, Big Data n�o se refere apenas aos dados, mas tamb�m �s solu��es tecnol�gicas criadas para lidar com esses dados em quantidade, variedade e velocidade bastante significativos.

Nesse cen�rio, � praticamente imposs�vel falar de MapReduce e esquecer do Hadoop. Basicamente, foi ele quem trouxe o MapReduce como solu��o para o processamento paralelo de dados e deu a ele o status que tem hoje. O Hadoop � um projeto que oferece uma solu��o para problemas relacionados � Big Data, tendo em seu n�cleo duas partes essenciais: o Hadoop Distributed Filesystem (HDFS), que � um sistema de arquivos distribu�do e confi�vel, respons�vel pelo armazenamento dos dados, e o pr�prio Hadoop MapReduce, respons�vel pela an�lise e processamento dos dados. Ambos possuem a confiabilidade como uma marca, o que torna o sistema muito robusto para aplica��es que envolvem dados massivos e importantes para as organiza��es que o utilizam.

Hadoop

O Hadoop � uma cole��o de subprojetos relacionados para computa��o distribu�da, sendo todos eles hospedados pela Apache Software Foundation. Por possuir o c�digo aberto, ele permite modifica��es relacionadas �s necessidades de cada um, tal como � visto em larga escala com as distribui��es Linux. Com isso, verifica-se a exist�ncia de alguns projetos privados, baseados no Hadoop que n�o s�o hospedados pela Apache. J� o pr�prio tem suas origens no Apache Nutch, um motor de pesquisa online juntamente com v�rios outros elementos, como o GDFS (Google Distributed FileSystem). Eles foram sendo portados para funcionar com o modelo MapReduce (que se via, j� na �poca, ser uma solu��o mais eficiente), at� que houve a necessidade de serem fundidos em um projeto maior, que � o Hadoop. Este nome surgiu de um elefante de pel�cia que pertencia ao filho do criador, Doug Cutting. Com esse nome, o projeto foi batizado em 2006, quando incorporado pela Yahoo!. Essa incorpora��o permitiu um crescimento muito r�pido do Hadoop, pois o Yahoo!, sendo uma grande companhia, foi capaz de fornecer um time de profissionais dedicados e os recursos necess�rios para torn�-lo um sistema a ser utilizado em larga escala.

Embora os subprojetos do Hadoop mais conhecidos sejam o MapReduce e seu sistema de arquivos distribu�dos (HDFS), outros subprojetos oferecem uma s�rie de servi�os complementares ou adicionam abstra��es de maior n�vel, ou seja, facilitando o desenvolvimento. Entre os demais subprojetos, vale destacar:

Avro: um sistema de serializa��o de dados que fornece RPCs (Remote Procedure Calls) eficientes e independentes de linguagem, armazenamento persistente de dados, estruturas de dados ricas, entre outros recursos, sendo muito utilizado com linguagens de programa��o din�micas;
Pig: uma plataforma para grandes conjuntos de dados que possui uma linguagem de programa��o de alto n�vel para realizar a an�lise desses dados. Al�m disso, possui a infraestrutura necess�ria para avaliar os programas criados, como um compilador especial que transforma as aplica��es desenvolvidas nessa linguagem em uma sequ�ncia de programas MapReduce;
HBase: uma base de dados distribu�da, criada para armazenar tabelas muito grandes (milh�es de colunas x bilh�es de linhas). Trata-se de um modelo de armazenamento orientado a colunas, muito f�cil de utilizar com a API Java;
ZooKeeper: um servi�o centralizado para coordena��o de aplica��es distribu�das. Mant�m informa��es de configura��o das aplica��es distribu�das, al�m de fornecer a sincroniza��o das mesmas. Esse tipo de servi�o � comumente utilizado em aplica��es distribu�das, e o ZooKeeper fornece uma interface simples para auxiliar o desenvolvedor, evitando bugs e condi��es de corrida (race conditions);
Hive: Uma esp�cie de Data Warehouse distribu�do, facilita a utiliza��o de grandes conjuntos de dados (datasets) em ambientes de armazenamento paralelo. Prov� uma linguagem baseada em SQL, chamada HiveQL, que serve para facilitar a estrutura��o dos e pesquisa nos dados.

Esses subprojetos do Hadoop fornecem uma gama de op��es muito grande para lidar com v�rios formatos de dados, o que aumenta a capacidade do mesmo e tamb�m sua confiabilidade e robustez. Eles criam um alto n�vel de abstra��o para que o desenvolvedor n�o precise ter a preocupa��o de entender a fundo o funcionamento de sistemas distribu�dos para criar a sua infraestrutura e trabalhar com ela.

Hadoop Distributed FileSystem

O HDFS � um sistema de arquivos criado para armazenar arquivos muito grandes de forma distribu�da. O conceito sobre o qual o HDFS foi constru�do � o chamado write-once, read-many-times, ou seja, escreva uma vez, leia muitas vezes. Esse tipo de constru��o � essencial para o Hadoop, uma vez que os dados ser�o processados in�meras vezes, dependendo da aplica��o, embora, normalmente, sejam escritos apenas uma vez. Esse tipo de constru��o faz com que seja desaconselh�vel a modifica��o de arquivos, pois acaba gerando muita sobrecarga. Al�m disso, como qualquer sistema de arquivos, o HDFS possui blocos de dados de tamanho fixo, por�m com um tamanho muito maior do que sistemas de arquivos comuns. Enquanto os comuns giram em torno dos 512 bytes, o HDFS possui blocos de 64 MB, por padr�o.

Sendo um sistema de arquivos, o HDFS possui as opera��es b�sicas comuns a todos eles. Com isso, tem-se que todos os arquivos possuem permiss�es para escrita, leitura e execu��o, bem como um dono. Isso tamb�m � visto em sistemas de arquivos tradicionais, onde cada arquivo � de posse de um usu�rio, e somente ele (ou o administrador) pode modificar suas permiss�es. Al�m disso, o HDFS possui um arquivo especial, basicamente um log de edi��o de dados, para que haja um controle maior a respeito das modifica��es nos dados presentes no sistema de arquivos.

Em termos de funcionamento, o HDFS necessita de dois tipos de n�s de armazenamento: um namenode (mestre) e um ou mais datanodes (trabalhadores). O mestre comanda todo o sistema de arquivos, mantendo metadados para todos os arquivos e diret�rios da �rvore de diret�rios e arquivos do sistema. Ele tamb�m sabe quais datanodes possuem os blocos de determinado arquivo. J� os datanodes guardam e recuperam blocos, quando mandados pelo n� mestre (os datanodes n�o fazem nada por conta pr�pria), e enviam relat�rios ao namenode periodicamente, com as listas dos blocos que eles est�o armazenando.

Como o namenode � fundamental para o uso do sistema de arquivos, por comandar o mesmo, ele deve ser altamente resistente a falhas. Pensando nisso, o Hadoop fornece dois mecanismos. O primeiro deles � a realiza��o de um backup dos arquivos essenciais do sistema de arquivos. Isto faz com que, em caso de problemas, seja poss�vel retornar ao estado imediatamente anterior ao erro, de acordo com o backup, evitando perdas de dados muito significativas. A outra op��o � utilizar um namenode secund�rio, que, apesar do nome, n�o atua como mestre, inicialmente. Este n� � utilizado apenas em caso de erro no namenode. O papel principal do �mestre secund�rio� � realizar uma jun��o, periodicamente, da imagem do sistema de arquivos com o log de edi��o, evitando que o log fique muito grande. Assim, como o estado desse namenode secund�rio � praticamente o mesmo do prim�rio, em caso de falha do n� prim�rio, � muito mais simples a recupera��o do sistema. Basta copiar os arquivos de metadados do mestre para o secund�rio e rodar este como o novo prim�rio.

Administrando o Hadoop

Quando utilizamos um sistema, � essencial que saibamos administr�-lo, e com o Hadoop n�o � diferente. Para isso, ele oferece uma s�rie de ferramentas para facilitar a administra��o do cluster. Isso ocorre porque, � imprescind�vel saber como os componentes do HDFS (namenode, namenode secund�rio e datanodes) organizam seus dados. Embora tal organiza��o seja abstra�da no momento do processamento dos dados, o administrador precisa saber como os dados est�o organizados, para o caso de algum problema com o sistema. Assim, � necess�rio saber informa��es como a vers�o do HDFS, o local onde est�o armazenados os arquivos essenciais, como o log de edi��o, entre outras.

Al�m disso, informa��es contidas no namenode e no namenode secund�rio, que realiza um backup dos arquivos do prim�rio, s�o essenciais para a administra��o do sistema como um todo. J� os datanodes possuem uma administra��o mais simples, pois criam seus diret�rios de armazenamento de dados automaticamente quando iniciam suas atividades. Tal atitude facilita a administra��o do sistema visto que faz com que os datanodes n�o necessitem de nenhum tipo de aten��o especial.

Em termos de seguran�a, vale ressaltar que o namenode possui um modo seguro. Neste modo, ele oferece apenas uma vis�o somente leitura do sistema de arquivos para o cliente, evitando assim modifica��es indesejadas dos dados. Isso � muito utilizado em casos de dados que est�o sendo utilizados por v�rios clientes ao mesmo tempo. Ademais, o monitoramento do sistema � outra parte importante da administra��o, e para tanto, o Hadoop produz arquivos de log que s�o muito �teis para que se saiba o que est� ocorrendo no sistema.

A administra��o de qualquer sistema tamb�m diz respeito � manuten��o do mesmo, e nesse ponto o Hadoop oferece backups dos metadados e dos pr�prios dados, pois, como sabemos, ainda que o HDFS tenha sido criado para armazenar dados de forma confi�vel, a perda de dados pode ocorrer. Para evitar problemas, duas ferramentas importantes que o Hadoop oferece s�o: o fsck (Filesystem Check), que procura blocos corrompidos ou faltantes; e o Filesystem Balancer, que mant�m os datanodes igualmente balanceados. Outra quest�o que chama aten��o no Hadoop � a possibilidade de adi��o ou remo��o de n�s do cluster a qualquer momento que o administrador desejar. Essas opera��es s�o chamadas de comissionamento e descomissionamento de n�s. Por fim, � importante a realiza��o de planejamento em caso de upgrade em um cluster Hadoop, pois dependendo das altera��es de uma vers�o para outra, pode haver perda de dados.

Uma parte muito importante em qualquer sistema diz respeito � entrada e sa�da de dados. O Hadoop, nativamente, vem com uma s�rie de primitivas para isso. Algumas delas s�o gen�ricas e aparecem em v�rios outros sistemas, tais como as que dizem respeito � integridade e compress�o de dados, mas existem alguns detalhes importantes a serem levados em considera��o quando elas est�o lidando com datasets de v�rios terabytes. As primitivas que s�o exclusivas do Hadoop s�o ferramentas ou APIs, como frameworks de serializa��o e estruturas de dados diretamente no disco, que facilitam essas opera��es de entrada e sa�da de dados.

Hadoop MapReduce

O Hadoop MapReduce � uma parte essencial do framework, uma vez que � o respons�vel pelo processamento de dados. O Hadoop trouxe o modelo de programa��o do MapReduce � tona, tornando o mesmo famoso. O MapReduce � uma excelente solu��o para o processamento paralelo de dados devido ao fato de serem inerentemente paralelos. O programador n�o precisa realizar nenhum tipo de programa��o extra para garantir que os processos ser�o processados paralelamente. Isso o coloca como uma solu��o fant�stica para problemas envolvendo an�lise de dados em larga escala.

O MapReduce possui duas fases de processamento: o Map e o Reduce. A primeira fase, a fase de mapeamento, � respons�vel pelo processamento prim�rio dos dados de entrada. Ent�o, os resultados dessa fase s�o enviados para a fun��o de redu��o como entradas. Ent�o, o resultado final � realizado pela fase de redu��o e enviado para arquivos que conter�o esses resultados. O escalonamento dos processos � feito internamente pelo Hadoop, e o desenvolvedor nem sequer fica sabendo como isso � realizado.

Por�m, quais s�o os dados que o MapReduce � capaz de ler? Normalmente, os programas MapReduce leem dados de arquivos .csv, que s�o capazes de separar os dados mais ou menos com o mesmo formato que se v� em bases de dados de qualquer tipo, onde cada valor representa uma coluna de dados. N�o � o �nico tipo de dados a serem lidos, por�m: � poss�vel ler dados de arquivos de texto ou qualquer outro tipo, desde que haja uma stream de dados de entrada que possa ser transformada em pares chave/valor, que � o que a aplica��o ir� entender posteriormente.

No MapReduce, ele funciona da seguinte forma: a entrada da aplica��o �, como j� informado, uma lista de pares chave/valor. Ent�o, esses pares s�o pegos um a um e processados, cada um gerando um par chave/lista de valores. Os detalhes dessa transforma��o � que normalmente definem o que o programa MapReduce faz. A partir da�, essa nova lista de pares � pega como entrada pela fun��o Reducer e � agregada de alguma forma, gerando uma sa�da final.

Atrav�s desse artigo foi poss�vel entender que o MapReduce � capaz de realizar qualquer coisa que quisermos, partindo de um arquivo de entrada e enviando para um arquivo de sa�da.

Um exemplo muito simples e comum de programa��o paralela � a contagem de palavras em v�rios documentos diferentes. Sem utilizar o MapReduce, o desenvolvedor estaria envolvido em uma s�rie de problemas que s�o inerentes ao processamento paralelo de dados. Por�m, utilizando o MapReduce, o Hadoop cuida automaticamente disso para o programador, evitando que o mesmo tenha que se preocupar com problemas de escalonamento e o local que os dados se encontram no sistema de arquivos.

Outro ponto que conta a favor do Hadoop � a facilidade que o mesmo possui na administra��o. Com v�rios elementos para adicionar robustez ao sistema, bem como facilitar o controle sobre as atividades dentro do cluster, o Hadoop fornece uma solu��o excelente e simples para as empresas que necessitam processar seus dados de diversas maneiras para crescer, ou, em alguns casos, continuar dominando o mercado. N�o � toa grandes corpora��es como o Facebook e o Twitter utiliza o Hadoop.

Saiu na DevMedia!

O JavaScript est� dominando o mundo?:
Apresentamos aqui o JavaScript na sua vers�o mais moderna. Ao acompanhar os cursos dessa s�rie voc� se sentir� � vontade para programar em Angular, React ou Vue.
#partiu programar para Android?:
Aprenda a programar e depurar aplicativos no Android Studio. Com os cursos desta s�rie voc� saber� quais s�o as principais classes do Android SDK e conhecer� os componentes de aplicativo, criando os seus primeiros projetos.
O que � Protocolo HTTP?:
Nesta s�rie falamos sobre o que vem depois do HTML/CSS. Saiba o que � requisi��o, resposta e se prepare para os seus primeiros passos na programa��o back-end.

Saiba mais sobre Big Data ;)

Big Data em pequenos neg�cios:
Veja neste artigo algumas defini��es sobre do que se trata o Big Data e alguns exemplos de como podemos usar isso a favor dos pequenos neg�cios.
Big Data com Java:
Neste Guia de Consulta voc� encontrar� todo o conte�do que precisa para entender a que se refere o termo Big Data, bem como sua import�ncia, da perspectiva de um programador Java.
Analisando o Big Data na teoria e na pr�tica:
Este artigo ir� introduzir o Big Data, apresentando um pouco da historia. Tamb�m iremos analisar algumas das principais tecnologias que foram criadas com o principal objetivo de fornecer recursos para se trabalhar com os conjuntos de dados.