Data Join com Hadoop MapReduce

O Hadoop MapReduce � uma ferramenta muito interessante para o processamento de dados massivos. O que sabemos � que nem sempre esses dados ter�o a mesma estrutura, ent�o � preciso que o sistema seja capaz de mescl�-los de alguma forma. O Data Join no MapReduce funciona mais ou menos como em bancos de dados: dois arquivos com estruturas diferentes (tabelas) podem ser unidos atrav�s de um elemento em comum. Isso abre um mar de possibilidades, e permite que conjuntos de dados heterog�neos possam ser processados pelo mesmo programa MapReduce.

Utilizando o programa MapReduce base: boletins de ocorr�ncia em rodovias federais

No �ltimo artigo sobre o Hadoop Mapreduce, foi criado um programa MapReduce base. Conforme foi comentado, n�o existe a necessidade de criar um novo programa cada vez que utilizamos o MapReduce. Simplesmente alteramos o nosso programa base de acordo com a necessidade de momento.

Para esse artigo ser�o utilizados dados do Sistema BR-Brasil, que cont�m boletins de ocorr�ncia em rodovias federais. Os dados utilizados s�o de ocorr�ncias entre 2007 e 2013. Esses dados s�o de dom�nio p�blico e est�o dispon�veis no site oficial. O conjunto de dados completo cont�m cerca de 933 MB, o que � pequeno o suficiente para ser processado em modo standalone.

Antes de come�armos o desenvolvimento, � preciso conhecimento sobre os dados. O conjunto de dados de boletins de ocorr�ncia da Pol�cia Rodovi�ria Federal cont�m uma s�rie de pastas, separadas por semestre, cada uma contendo arquivos .csv (Comma-Separated Values, ou valores separados por v�rgula), onde a primeira linha descreve as colunas e as demais cont�m um conjunto de dados. S�o quatro arquivos por pasta, um contendo o registro de ocorr�ncias confirmadas, um cadastro de ocorr�ncias envolvendo ve�culos, um cadastro de pessoas envolvidas nos acidentes e um cadastro das pessoas envolvidas na ocorr�ncia. Al�m disso, h� duas pastas, dom�nios e ve�culos, que cont�m as informa��es referentes aos c�digos apresentados nos demais arquivos. A Figura 1 mostra as primeiras linhas de um arquivo de ocorr�ncias confirmadas. Vale ressaltar o prefixo �oco� antes do nome das colunas, que � uma refer�ncia ao arquivo das ocorr�ncias. Os demais possuem outros prefixos.

Figura 1. Ocorr�ncias confirmadas no 1� semestre de 2007

Tendo em vista os dados em quest�o, o objetivo desse exemplo � obter o n�mero de ocorr�ncias confirmadas em um determinado munic�pio. Para isso, o programa ir� ler todos os arquivos de ocorr�ncias confirmadas (de 2007 a 2013) e ir� gerar como sa�da os munic�pios e o n�mero de ocorr�ncias em cada um deles. Como os nomes dos munic�pios est�o em um arquivo diferente, ser� realizada uma jun��o dos conjuntos de dados.

Contagem de ocorr�ncias por munic�pio

Conforme foi colocado, o objetivo aqui � trazer a contagem de todas as ocorr�ncias que ocorreram em cada munic�pio nos dados coletados. Para isso, existe a necessidade de contar o n�mero de vezes que cada c�digo do munic�pio aparece, simplesmente. Como se trata de um c�digo bastante simples, a partir do programa base n�o h� muito a ser feito. A quest�o mais complexa � justamente a que diz respeito ao join dos arquivos, trazendo os resultados de uma forma mais amig�vel. Afinal, � imposs�vel para qualquer pessoa saber a qual munic�pio determinado c�digo se refere. Pensando nisso, � interessante colocar o nome do munic�pio no resultado final.

Por�m, inicialmente ser� feita a contagem simples das ocorr�ncias por munic�pio, sem preocupa��o com arquivos com diferentes estruturas. Para isso, � preciso ter aten��o com a forma como os dados est�o dispostos no mesmo. Como foi visto, o c�digo do munic�pio comp�e a quarta coluna de dados no arquivo de ocorr�ncias. Logo, s�o os valores dessa coluna que precisam ser lidos e interpretados pelo programa MapReduce.

Como se trata de um programa simples, a partir do template n�o h� muito a ser feito. � necess�rio ter aten��o com os tipos de dados, entretanto. Como j� � sabido, o MapReduce trabalha com pares key/value. Primeiramente, � interessante focar no par de entrada da fun��o Mapper. Como a chave desse par n�o ser� utilizada para nenhum tipo de processamento, � interessante que ela seja do tipo Object, para ficar o mais gen�rica poss�vel. J� o valor ter� o tipo Text, pois conter� as linhas dos arquivos que ser�o processados. A partir da�, a linha � processada para que seja obtido o c�digo dos munic�pios, que ser� a chave do par de sa�da da fun��o map (e, como sabemos, entrada da fun��o reduce). A partir do fato de que ser� realizada uma contagem, o valor do par de sa�da � um IntWritable de valor 1 (um), o que ir� facilitar a contagem durante a execu��o da fun��o reduce(). A Listagem 1 mostra a classe MapClass do contador de ocorr�ncias. � importante observar que foi utilizada a classe OutputCollector para coletar a sa�da do mesmo. � uma simples quest�o de escolha, com rela��o � classe Context. Por�m, quando a classe OutputCollector � utilizada, � necess�rio que haja um objeto Reporter, pois, ao contr�rio do objeto Context, o coletor de sa�da faz apenas isso, a coleta do par chave/valor de sa�da.

Listagem 1. Classe MapClass

public static class MapClass extends MapReduceBase implements Mapper<Object, Text, Text, IntWritable> {
       private final static IntWritable one = new IntWritable(1);
       private Text cod = new Text();
       public void map(Object key, Text value, OutputCollector<Text,
        IntWritable> output, Reporter report) throws IOException {
            String line = value.toString();
            int i = 0;
            StringTokenizer aux = new StringTokenizer(line, ";");
            while ((aux.hasMoreTokens()) && (i < 4)){
                  cod.set(aux.nextToken());
                  i++;
            }
            output.collect(cod, one);
       }
  }

J� a classe ReducerClass possui dois pares chave/valor de tipo Text/IntWritable. Como foi visto, o par de entrada de dados consiste no c�digo do munic�pio e no valor 1. O par de sa�da da fun��o deve consistir no c�digo do munic�pio juntamente com a soma de todas as ocorr�ncias que foram registradas no mesmo. Isso � poss�vel porque a fun��o reduce recebe todos os valores associados � mesma chave em uma mesma fun��o. Entre a fun��o map e a fun��o reduce, � realizado o que � chamado de shuffle, etapa em que essa jun��o � realizada. Para tanto, percorre-se a lista de valores que foi recebida e vai-se somando-os, at� que todos os valores para determinada chave tenham sido contados. A Listagem 2 mostra como isso � feito. Com rela��o ao OutputCollector, o mesmo vale aqui.

Listagem 2. Classe ReducerClass

public static class ReducerClass extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {
       public void reduce(Text key, Iterator<IntWritable> values,
        OutputCollector<Text, IntWritable> output, Reporter report)
        throws IOException {
            int sum = 0;
            while (values.hasNext()){
                  sum += values.next().get();
            }
            output.collect(key, new IntWritable(sum));
       }
  }

Por fim, � importante relembrar que o c�digo para a fun��o run() j� est� praticamente pronto. Ele foi criado juntamente com o template e n�o h� muito a ser feito para modifica-lo. Um ponto importante � o acr�scimo de um nome para o job, neste caso �Ocorr�ncias�. O mesmo � v�lido para a fun��o main(), que ser� a mesma para qualquer programa MapReduce onde � implementada a fun��o Tool.run().

Refinando a sa�da de dados

Como foi definido, desejamos que a sa�da de dados contenha os nomes dos munic�pios, ao inv�s de seus c�digos. Os nomes, de acordo com os c�digos, est�o guardados em outro arquivo, chamado �munic�pios.csv�. O MapReduce pode aceitar v�rios arquivos, todos eles como entrada na fun��o map. Por�m, para que o funcionamento do programa ocorra da forma como o desenvolvedor deseja, � necess�rio que todos esses arquivos tenham o mesmo formato b�sico, ou seja, perten�am a um mesmo dataset, o que n�o � o caso aqui. A solu��o nesse caso � realizar a jun��o de arquivos, ou join. O conceito � bem semelhante ao observado em bancos de dados relacionais, por�m a pr�tica � mais complicada. Existem v�rios caminhos que podem ser tomados, como o reduce-side joining. N�o se trata da t�cnica mais eficiente, por�m � a mais gen�rica, al�m de formar a base de outras t�cnicas mais avan�adas. Al�m disso, para o caso desse exemplo, ele garante o resultado desejado. Nele, o papel do Mapper � empacotar o registro juntamente com uma etiqueta para que v� para o mesmo Reducer de outros com a mesma chave. O Reducer ent�o ir� realizar a jun��o dos dados. O objetivo � obter uma sa�da que seja um arquivo com o nome da cidade, seu estado e seu c�digo, apenas.

O reduce-side joining introduz novos conceitos e terminologias: data source, tag e group key. Um data source � an�logo a uma tabela em um banco de dados relacional, e nesse caso, existem dois: munic�pios e ocorr�ncias. A tag � utilizada para realizar a liga��o entre cada linha de dados com sua fonte (data source). Isso � muito importante para a jun��o dos dados, uma vez que o paradigma do MapReduce � processar uma informa��o por vez sem manter informa��es a respeito de sua fonte. E, quando etiquetamos o registro, a etiqueta (tag) ir� sempre com o mesmo, fazendo a liga��o entre o registro e sua fonte. Por fim, mas n�o menos importante, h� o conceito de group key. Essa chave funciona como o atributo que liga as tabelas em um join relacional (geralmente uma chave prim�ria/estrangeira), e neste exemplo ser� o c�digo do munic�pio. Por�m, vale ressaltar que no caso do reduce-side joining, a chave de grupo pode ser qualquer fun��o definida pelo usu�rio, permitindo uma maior liberdade com rela��o ao que � visto em bancos de dados relacionais. O reduce-side joining � um pacote de contribui��o do Hadoop, chamado datajoin, que funciona como um framework gen�rico para realizar a liga��o de dados no Hadoop.

Para realizar a implementa��o desse join, utiliza-se o pacote datajoin do Hadoop. Esse pacote possui tr�s classes abstratas: DataJoinMapperBase, DataJoinReducerBase e TaggedMapOutput. A classe Mapper ir� herdar da primeira, enquanto a classe Reducer, da segunda, como o pr�prio nome sugere. J� a terceira classe, TaggedMapOutput, � um tipo de dados para que os registros recebam a sua etiqueta do tipo Text. Trivialmente, ele implementa os m�todos getTag() e setTag(Text tag), al�m de tamb�m especificar um m�todo abstrato getData(). Como ela ser� sa�da de um Mapper, � necess�rio que seja do tipo Writable. Logo, uma subclasse, TaggedWritable ser� criada simplesmente para lidar com qualquer subtipo da classe Writable. Para isso, � necess�rio que a classe implemente os m�todos readFields() e write(), conforme a Listagem 3.

Listagem 3. Classe TaggedWritable

public static class TaggedWritable extends TaggedMapOutput {
       private Writable data;
       public TaggedWritable(Writable data) {
            this.tag = new Text("");
            this.data = data;
       }
       
  public Writable getData() {
            return data;
       }
   
       public void write(DataOutput out) throws IOException {
            this.tag.write(out);
            this.data.write(out);
       }
   
       public void readFields(DataInput in) throws IOException {
            this.tag.readFields(in);
            this.data.readFields(in);
       }
  }

J� o fluxo de dados para fun��o Mapper � simplesmente empacotar os registros de forma que eles v�o para o mesmo Reducer que outros registros com a mesma chave de grupo. A classe b�sica, DataJoinMapperBase, realiza esse empacotamento por padr�o. Por�m, h� tr�s m�todos abstratos que precisam ser implementados: generateInputTag(), generateTaggedMapOutput() e generateGroupKey(). O primeiro � chamado no come�o de uma tarefa de mapeamento para que a etiqueta daquela tarefa que processar� os registros daquele datasource seja definida. Essa tag � definida como sendo do tipo Text. J� o segundo seta essa tag para os registros. Por fim, como o nome sugere, o �ltimo � respons�vel pela gera��o da chave de grupo que ser� utilizada para o joining. Isso pode ser visto em mais detalhes na Listagem 4. � interessante levar-se em conta que o m�todo map j� � implementado pela classe base, conforme j� foi discutido, e por isso ele n�o aparece no c�digo.

Conforme � poss�vel ver-se no m�todo generateGroupKey(TaggedMapOutput aRecord), h� uma condi��o para o local de onde a chave de grupo � tirada. Isso ocorre pois os arquivos que ser�o juntados possuem uma diferen�a na posi��o do c�digo do munic�pio. Enquanto no arquivo munic�pios.csv eles est�o na primeira coluna, no arquivo de ocorr�ncias est�o na quarta coluna. Essa l�gica criada dessa forma devido ao fato que o primeiro tem apenas tr�s colunas, o que faz com que o tamanho do vetor criado seja igual a 3.

Listagem 4. Classe MapClass Data Join

public static class MapClass extends DataJoinMapperBase {
       protected Text generateInputTag(String inputFile) {
            String datasource = inputFile.substring(0,1) + "~";
            return new Text(datasource);
       }
   
       protected Text generateGroupKey(TaggedMapOutput aRecord) {
            String line = ((Text) aRecord.getData()).toString();
            String[] tokens = line.split(";");
            String groupKey;
            if (tokens.length > 3) {
                  groupKey = tokens[3];
            } else {
                  groupKey = tokens[0];
            }
            return new Text(groupKey);                
       }
   
       protected TaggedMapOutput generateTaggedMapOutput(Object value) {
            TaggedWritable retv = new TaggedWritable((Text) value);
            retv.setTag(this.inputTag);
            return retv;
       }
  }

Bem como a fun��o base do mapeamento, DataJoinReducerBase tamb�m simplifica a programa��o realizando um join completo. A subclasse de redu��o apenas tem que implementar o m�todo combine() para realizar a filtra��o de combina��es indesejadas. A fun��o combine(Object[] tags, Object[] values) recebe uma combina��o de registros cruzados, etiquetados, com a mesma chave. Neste caso, ele receber� uma linha do arquivo de munic�pios e outra do arquivo de ocorr�ncia, e ir� realizar o join entre as duas. Por fim, o m�todo espera um retorno do tipo TaggedMapOutput. N�o se sabe exatamente porque, uma vez que DataJoinReducerBase o ignora completamente. Portanto, aqui o valor de retorno n�o tem a menor import�ncia, conforme observa-se na Listagem 5.

Como � poss�vel observar-se, o m�todo combine() recebe como argumentos dois vetores de objetos, um deles contendo as tags e o outro contendo os valores. O tamanho desses dois vetores �, de forma garantida, o mesmo, uma vez que todos os registros estar�o etiquetados. A Listagem 5 tamb�m mostra como essas tags podem ser utilizadas. Como vimos, a etiqueta � criada como as duas primeiras letras do nome do arquivo, ou seja, �mu� e �oc�. Essa no��o � utilizada aqui, para que seja poss�vel sabermos o tipo de dados com que se est� lidando. Caso seja do arquivo de munic�pios, a String resultante receber� o nome e o estado da cidade; caso contr�rio, apenas o seu c�digo. Al�m disso, novamente o m�todo principal da classe foi omitido, o reduce(), uma vez que ele j� � implementado por DataJoinReducerBase.

Listagem 5. Classe Reduce Data Join

public static class Reduce extends DataJoinReducerBase {
       protected TaggedMapOutput combine(Object[] tags, Object[] values) {
            if (tags.length < 2) return null; 
            String joinedStr = ""; 
            for (int i=0; i<values.length; i++) {
                  if (i > 0) joinedStr += ";";
                 TaggedWritable tw = (TaggedWritable) values[i];
                  String line = ((Text) tw.getData()).toString();
                  String[] tokens;
                  if (tags[i].substring(0,1) == "mu"){
                       tokens = line.split(";", 2);
                       joinedStr += tokens[1];
                  } else{
                       tokens = line.split(";");
                       joinedStr += tokens[3];
                  }
            }
            TaggedWritable retv = new TaggedWritable
             (new Text(joinedStr));
            retv.setTag((Text) tags[0]); 
            return retv;
       }
  }

Por fim, os m�todos run() e main() seguem o padr�o mostrado no template. O que pode ser ressaltado � a utiliza��o de um separador no texto de sa�da. O separador utilizado foi o ponto-e-v�rgula (�;�). Esse separador pode ser definido atrav�s da seguinte chamada no objeto JobConf: job.set(�mapred.textoutputformat.separator�, �;�).

Utilizando esse conceito simples foi poss�vel alterarmos a sa�da de dados da aplica��o MapReduce. � interessante tra�ar um paralelo com o que se v� em bases de dados relacionais, onde para que um join possa ser realizado, � necess�rio que haja uma rela��o entre as tabelas. No caso do Hadoop, isso tamb�m � verdade, e como pudemos observar no exemplo acima, a rela��o � bastante expl�cita. Em uma base de dados relacionais, algo muito parecido com o que foi realizado aqui seria como o representado na Listagem 6, para uma tabela com munic�pios e outra com ocorr�ncias.

Listagem 6. Join SQL Munic�pios x Ocorr�ncias

Select a.nome, a.estado, b.id from municipios a, ocorrencias b
       where a.id = b.codmunicipio

� importante notar que o Hadoop MapReduce � uma solu��o para qualquer tipo de dados massivos, independente de como os dados est�o organizados, ou se s�o homog�neos ou heterog�neos. Utilizando o MapReduce, as possibilidades s�o praticamente infinitas, e o desenvolvedor � totalmente capaz de fazer o que quiser com os dados que tem em m�os. Isso faz com que essa tecnologia esteja atraindo muitas empresas, pequenas e grandes, para as possibilidades que o Big Data traz.