Hadoop MapReduce: Como criar um Programa MapReduce Base

O Hadoop � um framework para processamento e armazenamento de dados massivos em clusters de computadores. Seu modelo de processamento, o MapReduce, � tido como uma grande ferramenta para an�lise de dados massivos paralelamente. A grande vantagem desse estilo de programa��o baseia-se no fato de que o programador n�o precisa se preocupar com detalhes importantes no processamento paralelo, como escalonamento de tarefas. Tudo isso � controlado intrinsecamente pelo Hadoop. Este artigo explica o modelo de programa��o do MapReduce, como funciona, vantagens e desvantagens do modelo.

Escalonamento de Processos

Primeiramente, antes de tratar especificamente do Hadoop MapReduce, � importante entender o escalonamento de processos. Esse conceito � essencial, uma vez que o MapReduce trabalha internamente com ele para realizar o processamento paralelo entre v�rios n�s do cluster. E, com isso, � poss�vel entender os desafios na hora de escalonar um programa de processamento de dados. Isso auxilia na observa��o dos benef�cios do uso do modelo de programa��o MapReduce.

Para entender melhor esse conceito, vamos analisar um exemplo. No exemplo, ser� contado o n�mero de vezes que cada palavra aparece em um conjunto de documentos de texto. Para uma tarefa simples assim, � poss�vel escrever um programa sequencial, como o pseudoc�digo da Listagem 1, que obter� o resultado.

Listagem 1. Contador de palavras sequencial


for each documento in conj {
         palavras = tokenize(document);
         for each p in palavras {
               contPalavra[p]++;
         }
  }

Como � poss�vel observar, o programa percorre todos os documentos, extraindo as palavras uma a uma, em um processo de tokeniza��o (salva todos os conjuntos de caracteres at� um espa�o), e incrementando a contagem de cada palavra em um. Observe que o �ndice no contador de palavras � a pr�pria palavra, �p�. Isso � interessante, uma vez que, geralmente, se est� acostumado com um �ndice num�rico. Ao final, todas as entradas (palavras) podem ser mostradas em uma tabela, contendo o �ndice (a pr�pria palavra) e o n�mero de vezes que essa palavra apareceu.

� importante perceber que, embora o programa atinja o seu objetivo para pequenos conjuntos de documentos, conforme o conjunto aumenta � muito prov�vel que sejam encontrados problemas com essa abordagem, como falta de mem�ria. Para evitar esses problemas, � poss�vel distribuir o trabalho entre v�rias m�quinas, fazendo com que cada uma delas processe uma parte dos documentos e, ao final, realizar a jun��o desses resultados em um �nico arquivo, por exemplo. Por�m, essa abordagem ignoraria alguns requisitos de performance (como o tempo de distribui��o dos processos e jun��o dos resultados), al�m de poss�veis problemas de falta de mem�ria, falhas de servidor, entre outros. Para evitar esses problemas, a resposta � a utiliza��o do MapReduce, onde o Hadoop tira esses requisitos da al�ada do desenvolvedor, cuidando de todos esses problemas de escalabilidade, que tornam o desenvolvimento da aplica��o muito complexo, a ponto de inviabiliz�-la.

Hadoop MapReduce

Por�m, o que � o MapReduce? � um modelo de programa��o para processamento de dados de forma paralela. O modelo � simples, embora n�o seja t�o simples escrever programas �teis o utilizando. Isto ocorre porque o MapReduce trabalha com duas primitivas de processamento de dados, Mapper e Reducer, o que torna a programa��o n�o muito trivial, al�m de ser diferente do que a maior parte dos desenvolvedores est� acostumada. Mas o mais importante a se ressaltar � que os programas MapReduce s�o inerentemente paralelos, o que o coloca como uma solu��o fant�stica para problemas que envolvam an�lise de dados em larga escala. Com isso, uma vez que a aplica��o MapReduce est� escrita, escalar a mesma para rodar em cima de centenas, milhares ou milh�es de dados � apenas uma quest�o de mudan�a de configura��o.

Como � poss�vel deduzir, o MapReduce possui duas fases: mapeamento e redu��o. Na fase de mapeamento, o MapReduce pega os dados de entrada e envia cada um dos elementos de dados para a fun��o Mapper. J� na fase de redu��o, a fun��o Reducer processa todas as sa�das da fun��o Mapper e chega a um resultado final. Em outros termos, a fun��o Mapper � feita para filtrar e transformar os dados que ser�o agregados pela fun��o Reducer.

O MapReduce foi desenvolvido ap�s muitas experi�ncias em escalonamento de processos, o que faz com que ele seja excelente para aplica��es distribu�das. Tamb�m � da� que vem a similaridade do modelo de processamento MapReduce com muitos programas escalon�veis. Por�m, a despeito da maior facilidade no uso, ainda � necess�rio um entendimento com rela��o � estrutura de dados que ser� processada. No caso do MapReduce, as estruturas utilizadas s�o listas e pares chave/valor.

Como sabemos, qualquer aplica��o possui um fluxo de dados. No MapReduce, ele funciona da seguinte forma: a entrada da aplica��o �, como j� informado, uma lista de pares chave/valor. Ent�o, esses pares s�o pegos um a um e processados, cada um gerando um par chave/lista de valores. Os detalhes dessa transforma��o � que normalmente definem o que o programa MapReduce faz. A partir da�, essa nova lista de pares � pega como entrada pela fun��o Reducer e � agregada de alguma forma, gerando uma sa�da final.

Criando um Programa MapReduce Base

A grande maioria dos programas MapReduce s�o escritos brevemente, como varia��es de um template. Ou seja, quando escreve-se um novo programa MapReduce, geralmente pega-se um existente e o modifica at� que ele fa�a o que o desenvolvedor deseja. Por isso, � muito importante a cria��o de um programa b�sico, para o qual servir�o de base todos os demais.

Para isso, a conven��o � que uma �nica classe defina completamente os Jobs do MapReduce. Isso porque essa classe ser� executada apenas na m�quina cliente, enquanto, quando rodando em um cluster de computadores, as classes Mapper e Reducer estar�o executando em v�rios n�s diferentes. Mas � importante ter em mente que essas classes s�o independentes, e n�o ir�o interagir muito com a classe do job. Al�m disso, outra grande vantagem dessa abordagem � que tudo cabe em apenas um arquivo, simplificando a administra��o do c�digo.

O n�cleo da classe do job � o m�todo run(), tamb�m conhecido como driver, ou motorista. Esse m�todo � o grande respons�vel por, como seu pr�prio nome sugere, executar um job do Hadoop MapReduce. Ele instancia, configura e passa um objeto de configura��o do job (JobConf) para o m�todo runJob(), do JobClient, para iniciar o job MapReduce. Esse objeto que � passado cont�m todas as configura��es necess�rias para que o job seja iniciado e consiga executar satisfatoriamente. Como � poss�vel ver-se pela Listagem 2, a fun��o especifica os caminhos de entrada e sa�da e as classes Mapper e Reducer, que s�o essenciais para qualquer job MapReduce. H� diversas outras configura��es que podem ser modificadas de acordo com a necessidade, como tamb�m se v� abaixo. Entre essas configura��es, � v�lido destacar o nome do job (job.setJobName()), que pode ser definido da forma que o desenvolvedor desejar. Al�m disso, o formato dos dados de entrada e sa�da tamb�m podem, e devem, ser definidos conforme a aplica��o sendo desenvolvida. Como trata-se de um template gen�rico, que ser� utilizado para v�rias aplica��es MapReduce, o formato de dados � o mais comum, o Text.

Listagem 2. M�todo especial run()


public int run(String[] args) throws Exception {
  Configuration conf = getConf();
         JobConf job = new JobConf(conf, TemplateHadoop.class);
         Path in = new Path(args[0]);
         Path out = new Path(args[1]);
         FileInputFormat.setInputPath(job, in);
         FileOutputFormat.setOutputPath(job, out);
         
         job.setJobName("Teste");
         job.setMapperClass(MapClass.class);
         job.setReducerClass(ReducerClass.class);
         job.setInputFormat(TextInputFormat.class);
         job.setOutputFormat(TextOutputFormat.class);
         job.setOutputKeyClass(Text.class);
         job.setOutputValueClass(Text.class);
         
         JobClient.runJob(job);
         
         return 0;
  }

A configura��o do job n�o precisa estar necessariamente no m�todo run(). Na realidade, ele nem precisaria existir e tudo poderia estar dentro do m�todo main. A import�ncia do m�todo run() est� no fato de que ele permite que o usu�rio altere alguns dos par�metros de configura��o durante a chamada do job. Isso � interessante, por exemplo, para depura��o de c�digo, quando o desenvolvedor deseja que apenas a sa�da da fun��o mapper (ou reducer) seja observada. E isso s� � poss�vel atrav�s desse m�todo, que � capaz de definir seu pr�prio conjunto de comando e processar os argumentos do usu�rio. Por isso, o m�todo main apenas utiliza a chamada para um ToolRunner, respons�vel por habilitar o job a entender op��es de usu�rio, como a especifica��o de um arquivo de configura��o, a defini��o de um valor para uma propriedade ou a especifica��o de um n� no qual o job ir� ser executado. A Listagem 3 mostra o m�todo main, utilizando um ToolRunner, do esqueleto de uma aplica��o MapReduce.

Listagem 3. M�todo main()


public static void main(String[] args) throws Exception {
         int res = ToolRunner.run(new Configuration(), 
         new TemplateHadoop(), args);
         System.exit(res);
  }

Agora, falando das fun��es que d�o nome ao MapReduce, temos as classes est�ticas MapClass e ReducerClass. Ambas herdam da classe MapReduceBase, que � uma pequena classe que prov� implementa��es de dois m�todos necess�rios por ambas, configure() e close(). Esses m�todos s�o utilizados para setar e limpar as tarefas map e reduce. Eles podem ser sobrescrevidos, mas nesse caso isso n�o � necess�rio; apenas em Jobs mais avan�ados. Ambas as classes possuem uma assinatura, que pode ser vista na Listagem 4. � importante observar que cada uma delas possui dois pares chave/valor, sendo que o par de sa�da da classe Mapper � o par de entrada da classe Reducer. Al�m disso, esses pares s�o utilizados como par�metros nas fun��es map e reduce. � importante ressaltar a classe Context. Ela � utilizada para escrever o par chave/valor na sa�da. Outra classe utilizada com o mesmo fim � a OutputCollector<K, V>.

Listagem 4. Assinatura das classes Mapper e Reducer


public static class MapClass extends MapReduceBase
     implements Mapper<K1, V1, K2, V2> { 
    public void map(K1 key, V1 value, Context context) 
     throws IOException { 
    } 
  } 
  public static class ReducerClass extends MapReduceBase 
    implements Reducer<K2, V2, K3, V3> { 
    public void reduce(K2 key, Iterator<V2> values, Context context) 
     throws IOException {
    }
  }

O centro das a��es em ambas as classes s�o suas fun��es map() e reduce(). Cada chamada da fun��o map() recebe um par chave/valor de qualquer tipo K1 e V1. O par gerado por ela � escrito pelo fun��o write() do objeto Context. J� cada chamada do m�todo reduce() recebe uma chave do tipo K2 e um valor do tipo V2, que devem ser os mesmos da sa�da da fun��o map(). Geralmente esse m�todo possuir� um la�o para percorrer todos os valores de tipo V2. E, novamente, o par gerado pela fun��o ser� escrito pelo objeto Context atrav�s da fun��o write(). Nesse caso, como est� sendo criado um template gen�rico, todos os valores e chaves ser�o do tipo Text. A Listagem 5 mostra o c�digo das classes Mapper e Reducer do template base de programas MapReduce.

Listagem 5. Classes Mapper e Reducer


public static class MapClass extends MapReduceBase 
  implements Mapper<Text, Text, Text, Text> {
    public void map(Text key, Text value, Context context) 
      throws IOException {
           context.write(value, key);
      }
  }
   
  public static class ReducerClass extends MapReduceBase 
    implements Reducer<Text, Text, Text, Text> {
         public void reduce(Text key, Iterator<Text> 
           values, Context context) 
           throws IOException {
               context.write(key, new Text());
         }
  }

Vale lembrar que todos os valores e chaves devem ser de subtipos de Writable. Isso garante a interface de serializa��o para o Hadoop enviar os dados entre os n�s de um cluster de computadores. De fato, as chaves implementam WritableComparable, uma subinterface da primeira. Isso porque as chaves precisam dar suporte adicional ao m�todo compareTo(), pois s�o utilizadas para ordena��o em v�rios lugares do framework.

Modificando o Programa Base para a Necessidade: Contador de Palavras

Raramente escreve-se um programa MapReduce do zero; o template � modificado para que atenda as especifica��es do novo programa. Como o template j� est� constru�do, basicamente o que precisa ser feito � ajustar o programa para que ele conte o n�mero de palavras de um documento qualquer. Para isso, � preciso ter aten��o com o formato do arquivo, e a forma como os dados est�o dispostos no mesmo.

Como se trata de um programa simples, a partir do template n�o h� muito a ser feito. � necess�rio ter aten��o com os tipos de dados, entretanto. Como j� � sabido, o MapReduce trabalha com pares key/value. Primeiramente, � interessante focar no par de entrada da fun��o Mapper. Como a chave desse par n�o ser� utilizada para nenhum tipo de processamento, � interessante que ela seja do tipo Object, para ficar o mais gen�rica poss�vel. J� o valor ter� o tipo Text, pois conter� as linhas dos arquivos que ser�o processados. A partir da�, a linha � processada para que seja obtido cada palavra, que ser� a chave do par de sa�da da fun��o map (e, como sabemos, entrada da fun��o reduce). A partir do fato de que ser� realizada uma contagem, o valor do par de sa�da � um IntWritable de valor 1 (um), o que ir� facilitar a contagem durante a execu��o da fun��o reduce().

No exemplo do contador de palavras da Listagem 6, observa-se que a contagem de palavras chega ao mesmo resultado do contador sequencial discutido anteriormente, por�m com uma abordagem totalmente diferente. No caso a seguir, a fun��o map pega o valor (do par key/value), uma das linhas do documento, e faz a tokeniza��o da mesma, atrav�s da classe StringTokenizer. Assim, enquanto houver palavras na linha, elas ser�o adicionadas ao par�metro context, gerando um novo par chave/valor, que ser� utilizado como entrada na fun��o reduce. A chave ser� do tipo texto, enquanto o valor ser� um IntWritable de valor 1. J� a fun��o reduce � utilizada apenas para realizar a contagem das vezes que as palavras foram encontradas, gerando um resultado, novamente em um par chave/valor, cuja chave � o nome da palavra e o valor � o n�mero de vezes que a mesma foi encontrada.

Listagem 6. Contador de palavras com MapReduce


private final static IntWritable one = new IntWritable(1);
  private Text word = new Text();
  public void map(Object key, Text value, Context context) 
    throws IOException, InterruptedException{
         StringTokenizer itr = new StringTokenizer(value.toString());
         while(itr.hasMoreTokens()){
               word.set(itr.nextToken());
               context.write(word, one);
         }
  }
  ...
  private IntWritable result = new IntWritable();
  public void reduce(Text key, Iterable<IntWritable> 
    values, Context context) throws IOException, InterruptedException{
         int sum = 0;
         for (IntWritable val : values){
               sum += val.get();
         }
         result.set(sum);
         context.write(key, result);
  }

Como � poss�vel observar analisando o c�digo, o programa na Listagem 6 diferencia palavras antes de pontua��o e com letras mai�sculas. Deste modo, se houvesse no texto as frases: �Almocei ontem, mas...�, �Ontem fiz...� e �Sa� ontem e...�, as tr�s palavras �ontem� seriam contadas como tr�s palavras diferentes (�ontem,�, �Ontem� e �ontem�). Isto acontece porque a classe StringTokenizer, por padr�o, seleciona conjuntos de caracteres separados por espa�o. Para resolver esse pequeno problema, basta adicionar a pontua��o � lista de caracteres delimitadores do objeto itr e colocar todas as palavras para min�sculas (ou mai�sculas, � uma quest�o de escolha) antes de adicion�-las � lista de valores. Al�m disso, vale ressaltar as classes IntWritable e Text, definidas no pacote org.apache.hadoop.io para inteiros e strings.

Este artigo procurou abordar em detalhes o funcionamento do Hadoop MapReduce e seu modelo de programa��o. Trata-se de uma ferramenta muito interessante para todos que precisam trabalhar com dados massivos de qualquer natureza, pois fornece diversos elementos excelentes para processamento paralelo. Por�m, � preciso estar atento � aplica��o desse tipo de programa��o. O Hadoop MapReduce pode n�o ser uma boa para situa��es que n�o envolvam muitos dados, devido � dificuldades intr�nsecas � programa��o distribu�da.

A grande vantagem do MapReduce � que ele � f�cil de ser utilizado. O desenvolvedor n�o tem necessidade de aprender toda a teoria que envolve o processamento de dados massivos, bem como sistemas de arquivos distribu�dos. O Hadoop j� lida com isso, e muito bem. Al�m disso, ele n�o � totalmente independente, no sentido de que n�o se sabe o que est� acontecendo durante o processamento. H� uma s�rie de ferramentas de administra��o, entre as quais a interface Reporter, que funciona para fornecer relat�rios do funcionamento dos Jobs do MapReduce, principalmente. E a programa��o � simples, desde que sejam entendidos os conceitos que envolvem o paradigma. Raramente ser�o encontradas fun��es map e reduce muito grandes em um programa, o que mostra a simplicidade do modelo de programa��o MapReduce, e como ele pode ser �til em diversas aplica��es de processamento de dados.

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Por Henrique Em 2014

<Formação completa Programador FullStack/>

Conteúdo Front-end, Back-end e Mobile
Plano de estudo linear
+10 mil exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Suporte 365 dias do ano
12 meses de acesso

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso