Elasticsearch Hadoop: busca elástica com processamento poderoso

O es-hadoop � um conector entre duas das tecnologias principais segundo o paradigma Big Data. O principal caso de uso desse conector � utilizar a capacidade de busca e an�lise do Elasticsearch em conjunto com informa��es que estejam armazenadas no Hadoop para o desenvolvimento de aplica��es de tempo real e detec��o de anomalias (por exemplo, para descoberta de fraudes).

� importante conhecer alguns conceitos do Elasticsearch antes que um exemplo pr�tico seja apresentado. Para esse artigo, os principais conceitos s�o: �ndice e indexa��o. Um �ndice � o local onde ser�o armazenados os documentos que s�o gerenciados pelo Elasticsearch. O processo de armazenamento de um documento � chamado de indexa��o, pois diferentemente dos bancos de dados tradicionais, as informa��es contidas nesse documento normalmente n�o ser�o armazenadas de forma crua, ou seja n�o est�o na mesma forma que foram enviadas ao Elasticsearch, mas antes ser�o analisados e transformados.

Hadoop se tornou o padr�o para o desenvolvimento de aplica��es baseadas no padr�o Map/Reduce. Para esse artigo, os conceitos mais importantes s�o: HDFS e job. O Hadoop Distributed Filesytem (HDFS) � o sistema de artigos distribu�dos do Hadoop, que ir� armazenar as entradas e os resultados do seu processamento de seus Jobs, que s�o a unidade m�nima de execu��o no Hadoop, que geralmente possui fases de Map e de Reduce, ainda que o Reduce possa ser eventualmente omitido.

Inicialmente precisamos instalar o Elasticsearch e o Hadoop. A primeira atividade deve ser instalar o Elasticsearch em um servidor. Em uma m�quina com Java instalado, devemos baixar a �ltima vers�o do site do Elasticsearch, desempacot�-la, e executar o comando ./bin/elasticsearch. Se tudo ocorreu podemos chamar localhost:9200 em um navegador, conforme ilustrado na Listagem 1 o Elasticsearch ir� retornar uma resposta JSON. Nessa resposta, o par�metro name provavelmente ir� variar para cada leitor, pois � escolhido de forma aleat�ria (em resumo, n�o se preocupe se a resposta JSON n�o for exatamente igual a Listagem 1).


{
  "status" : 200,
  "name" : "Madeline Joyce",
  "version" : {
    "number" : "1.3.4",
    "build_hash" : "a70f3ccb52200f8f2c87e9c370c6597448eb3e45",
    "build_timestamp" : "2014-09-30T09:07:17Z",
    "build_snapshot" : false,
    "lucene_version" : "4.9"
  },
  "tagline" : "You Know, for Search"
}

Listagem 1. Resposta do cluster Elasticsearch

Com o Elasticsearch executando, podemos criar um �ndice para nosso exemplo. Nesse artigo vamos criar um crawler para o RSS da Globo.com para o Santos Futebol Clube, que ir� recuperar dos dados do endpoint RSS e mape�-lo para o Hadoop Filesystem (HDFS). Do HDFS vamos utilizar o hadoop-es para enviar esses dados para um �ndice ES. Posteriormente, vamos fazer o caminho inverso para utilizar as capacidades de an�lise do ES para buscar no �ndice os resultados e armazen�-los novamente no HDFS. A Listagem 2 apresenta a cria��o do �ndice em ES.


PUT /santos
{
 "analysis": {
    "analyzer": {          
       "description_analyzer": {
         "type": "custom",
         "tokenizer": "whitespace",
         "filter": [ "asciifolding", "stem_minimal_pt" ]
       }
    },
    "filter": 
        {
       "stem_minimal_pt": {
          "type": "stemmer",
          "language": "minimal_portuguese"
       }
    }
 }
}

Listagem 2. Cria��o do �ndice Elasticsearch

O pr�ximo passo � adicionar um mapeamento para definir os campos, seus tipos e a forma que como cada um desses campos ser� analisado. A Listagem 3 apresenta o mapeamento com os seguintes campos um post RSS: title, link, description, e category. Todos campos s�o do tipo string. � importante saber que o Elasticsearch permite mapear campos com outros tipos (por exemplo, long, integer, boolean) e definir mapeamentos mais complexos (como listas e objetos). Os campos title, link e category s�o armazenados ap�s processados pelo analisador padr�o � standard. Para mais detalhes sobre o analisador standard visite a documenta��o oficial do Elasticsearch. O campo description � analisado pelo description_analizer, apresentada na Listagem 2, que ir� remover qualquer tag HTML que esteja nesse campo.


PUT santos/rss/_mapping
{
"rss" : {
   "properties" : {
     "title" : {
        "type" : "string"
     },
     "link" : {
        "type" : "string"
     },
     "description" : {
        "type" : "string", "analyzer": "description_analyzer"
     },
     "category" : {
        "type" : "date"
     }
    }
}

Listagem 3. Mapeamento do Elasticsearch

Antes de continuar, vamos instalar o Hadoop no Linux. Instalar o Hadoop no Windows � poss�vel, por�m n�o � recomendado seu uso em produ��o. A Tabela 1 lista os passos necess�rios para essa instala��o de modo simplificado, por isso n�o ser� comentada a resposta da execu��o de cada comando.

Descri��o do passo	Comandos
Instalar o Java	sudo apt-get install default-jdk
Adicionar um grupo	sudo addgroup hadoop
Adicionar um usu�rio para o Hadoop	sudo adduser --ingroup hadoop hduser
Instalar o SSH	sudo apt-get install ssh
Logar como usu�rio hduser	su hduser
Gerar chave p�blica	ssh-keygen -t rsa -P ""
Adicionar chave ao	cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Testar o SSH	ssh localhost
Baixar o Hadoop	wget http://mirrors.sonic.net/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gz
Desempacotar o Hadoop	tar xvzf hadoop-2.4.1.tar.gz
Mover o Hadoop e autorizar o usu�rio hduser	sudo mv hadoop-2.4.1 /usr/local/hadoop sudo chown -R hduser:hadoop hadoop
Modificar o ~/.bashrc, adicionando as seguintes linhas.	#HADOOP VARIABLES START export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64 export HADOOP_INSTALL=/usr/local/hadoop export PATH=$PATH:$HADOOP_INSTALL/bin export PATH=$PATH:$HADOOP_INSTALL/sbin export HADOOP_MAPRED_HOME=$HADOOP_INSTALL export HADOOP_COMMON_HOME=$HADOOP_INSTALL export HADOOP_HDFS_HOME=$HADOOP_INSTALL export YARN_HOME=$HADOOP_INSTALL export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib" #HADOOP VARIABLES END
Modificar o hadoop-env.sh, adicionando as seguintes linhas.	export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
Modificar o core-site.xml	<configuration> <property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> <description></description> </property> <property> <name>fs.default.name</name> <value>hdfs://localhost:54310</value> <description></description> </property> </configuration>
Modificar o mapred-site.xml	<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:54311</value> <description> </description> </property> </configuration>
Modificar o hdfs-site.xml	<configuration> <property> <name>dfs.replication</name> <value>1</value> <description> </description> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop_store/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop_store/hdfs/datanode</value> </property> </configuration>
Formatar o Hadoop Filesystem	hadoop namenode -format
Iniciar o Hadoop	start-all.sh

Tabela 1. Comandos para instala��o do Hadoop no Linux

Se o Hadoop estiver instalado corretamente, o comando jps � que lista os processos Java � resultar� em algo parecido com a Listagem 4.


hduser@k:/home/knbsp;jps
6139Jps
5484NameNode
5871SecondaryNameNode
5969ResourceManager
6054NodeManager
7610DataNode

Listagem 4. Depend�ncia do es-hadoop

Com ambas tecnologias instaladas, podemos come�ar um projeto Java. Nesse artigo vamos utilizar um projeto Maven do Eclipse, por facilitar muito o desenvolvimento, por�m os passos s�o os mesmos, independentemente de IDE ou tipo de projeto. Ap�s criar o projeto, adicione a depend�ncia do es-hadoop como apresentado na Listagem 5.


<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-client</artifactId>
  <version>2.5.1</version>
</dependency>
<dependency>
  <groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-hadoop</artifactId>
  <version>2.0.2</version>
</dependency>

Listagem 5. Depend�ncia do es-hadoop

Nesse exemplo, vamos utilura��es padr�o do Hadoop, por isso se o seu HDFS n�o estiver acess�vel localmente e ou na porta padr�o isso deve ser alterado no lugar de


public class RSSReader {

      private static Logger logger = Logger.getLogger(RSSReader.class);

      public static void main(String argv[]) {

        try {
            URL url = new URL(
                   "http://globoesporte.globo.com/servico/semantica/editorias
                   /plantao/futebol/times/santos/feed.rss");

            InputStream in = url.openStream();

            DocumentBuilderFactory dbFactory = DocumentBuilderFactory
                   .newInstance();
            DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
            Document doc = dBuilder.parse(in);

            doc.getDocumentElement().normalize();

            NodeList nList = doc.getElementsByTagName("item");

            List<String> linhas = new ArrayList<String>();

            String linha = "";

            for (int temp = 0; temp < nList.getLength(); temp++) {

            Node nNode = nList.item(temp);

            if (nNode.getNodeType() == Node.ELEMENT_NODE) {

                   Element eElement = (Element) nNode;

                   linha += eElement.getElementsByTagName("title").item(0)
                                          .getTextContent()+"|";
                   linha += eElement.getElementsByTagName("description").item(0)
                                          .getTextContent()+"|";
                   linha += eElement.getElementsByTagName("link").item(0)
                                          .getTextContent()+"|";
                   linha += eElement.getElementsByTagName("category").item(0)
                                          .getTextContent();
                   
                   linhas.add(linha);
                               }
                   }
                   
                   write(linhas);
        } catch (Exception e){
                   e.printStackTrace();
        }
      }

      private static void write(List<String> linhas) throws IOException {

                  Path pt=new Path("hdfs://localhost:54310/devmedia/input.txt");
  FileSystem fs = FileSystem.get(new Configuration());
  
  BufferedWriter br=new BufferedWriter(new OutputStreamWriter(fs.create(pt,true)));
  
                  for(String linha:linhas){                          
                             logger.info(linha);
      br.write(linha);         
                  }
                  
  br.close(); 
      }
}

Listagem 6. Leitura dos dados RSS e escrita no hdfs

Posteriormente, a classe Mapper apresentada na Listagem 7 que ir� recuperar os dados e coloc�-los num formato capaz de ser lido pelo Hadoop. Nessa etapa, podemos fazer algumas transforma��es para melhorar o significado dos nossos dados, apenas como exemplos filtraram os valores para apenas escrever os posts que tenham a string �santos� no t�tulo.


public class ESReaderMapper extends
  Mapper<LongWritable, Text, NullWritable, MapWritable> {

  private static Logger logger = Logger.getLogger(ESReaderMapper.class);

  @Override
  protected void map(LongWritable key, Text value, Context context)
   throws IOException, InterruptedException {

    logger.debug(value);

    String[] splitValue = value.toString().split("|");

    String title = splitValue[0];

    MapWritable doc = new MapWritable();

    if (title.toLowerCase().contains("santos")) {

       doc.put(new Text("title"), new Text(title));
       doc.put(new Text("description"), new Text(splitValue[1]));
       doc.put(new Text("link"), new Text(splitValue[2]));
       doc.put(new Text("category"), new Text(splitValue[3]));

        context.write(NullWritable.get(), doc);
    }
  }
}

Listagem 7. Classe Mapper da escrita para o ES

Na sequ�ncia, podemos escrever o c�digo do job para escrita de dados para o ES. Conforme ilustrado na Listagem 8, primeiramente, devemos adicionar ao objeto de configura��o do job c�digos que definem onde o es-hadoop ir� encontrar nosso Elasticsearch (nesse exemplo, nos limitamos a copiar os par�metros definidos anteriormente na configura��o do ES). Outra defini��o importante � utilizar o EsOutputFormat (importado do es-hadoop) como o formato de sa�da (OutputFormatClass) para nosso job. Esse c�digo ir� utilizar o ESWriterMapper da listagem anterior para transformar o que foi lido anteriormente para documentos JSON.


public class ESWriterJob {
                  
      public static void main(String[] args) throws Exception {
          Configuration conf = new Configuration();
                  conf.set("es.nodes","localhost");    
                  conf.set("es-port","9200");    
                  conf.set("es.resource","santos/rss");
          
          Job job = new Job(conf, "RSS Writer");
          
  job.setJarByClass(ESWriterJob.class);
  
  //es-hadoop configs
  job.setOutputFormatClass(EsOutputFormat.class);
  job.setMapOutputValueClass(MapWritable.class);
  job.setMapperClass(ESWriterMapper.class);        
  job.setSpeculativeExecution(false);

  FileInputFormat.addInputPath(job, new Path(args[0]));
  job.setInputFormatClass(KeyValueTextInputFormat.class);
      
  boolean result = job.waitForCompletion(true);
  System.exit(result ? 0 : 1);
        }         
}

Listagem 8. Classe Mapper da escrita para o ES

Ap�s a execu��o desse job, os valores que estavam no HDFS ser�o enviados ao nosso �ndice do Elasticsearch. Para verificar isso, podemos executar uma busca match_all (que ir� retornar todos os valores) no nosso �ndice como ilustrado na Listagem 9.


curl -XGET 'localhost:9200/santos/rss/_search' -d '
{
    "query" : {
        "match_all" : {}
    }
}

Listagem 9. Verificar se os valores chegaram ao �ndice

Como j� temos dados cadastrados no �ndice, podemos fazer o exemplo contr�rio, ou seja, um c�digo que leia dados do �ndice e envie ao HDFS. O m�todo da Listagem 10 ilustra como podemos recuperar de RSS que est�o no HDFS e envi�-los ao �ndice do Elasticsearch. De forma semelhante, para ler dados de ElasticSearch, vamos configurar o acesso ao ES e utilizar uma classe de format (nesse caso a EsInputFormat) oferecida pelo es-hadoop.Al�m disso, e mais importante, devemos definir uma consulta para extrair dados do ES.


public class ESReaderJob {
    
  public static void main(String[] args) throws Exception {
  Configuration conf = new Configuration();
      conf.set("es.nodes","localhost");    
      conf.set("es-port","9200");    
      conf.set("es.resource","santos/rss");
      conf.set("es.query","{ \"match_all\" : { } }");

      Job job = new Job(conf, "RSS Reader");

      job.setJarByClass(ESReaderJob.class);

      job.setInputFormatClass(EsInputFormat.class);
      job.setMapOutputKeyClass(Text.class);
      job.setMapOutputValueClass(MapWritable.class);

  FileOutputFormat.setOutputPath(job, new Path("/devmedia/output.txt"));

      boolean result = job.waitForCompletion(true);
      System.exit(result ? 0 : 1);
}           
}

Listagem 10. Recuperar dados do Elasticsearch

Se tudo ocorreu bem, podemos encontrar o arquivo de sa�da no diret�rio que criamos anteriormente, atrav�s do seguinte comando (com o usu�rio hduser): hadoop fs -ls /devmedia.

Em resumo, vamos utilizamos nesse artigo o es-hadoop para comunica��o entre o Elaticsearch e o Hadoop. Esse framework fornece um InputFormat e um OutputFormat dedicado a ler e gravar dados do ElasticSearch e uma sequ�ncia de par�metros de configura��o que permitir�o a um Job do Hadoop encontrar o ES. O es-hadoop n�o se resume as essas atividades e podemos, por exemplo, indexar diretamente documentos JSON sem aplicar qualquer transforma��o, utilizar �ndices de leitura e escrita distintos, e utilizar outros componentes do Hadoop como tamb�m com o Hive, Pig e o Spark.

O es-hadoop (Easticsearch for Apache Hadoop) permite que os trabalhos do Hadoop para interagir com ElasticSearch com uma pequena biblioteca e uma configura��o f�cil, a import�ncia desse framework � combinar ferramentas que desde o n�vel mais abstrato at� a implementa��o de detalhes de c�digo tem muito para ofertar trabalhando em conjunto. Por exemplo, a escalabilidade, uma das principais vantagens tanto do Elasticsearch quanto do Hadoop, pode ilustrar a semelhan�a j� que um componente cr�tico � a capacidade de dividir uma tarefa em problemas menores que executam ao mesmo tempo. Esse conceito est� presente em ambos: no Hadoop atrav�s das suas divis�es (o n�mero de partes em que uma fonte ou entrada pode ser dividido) e no ElasticSearch atrav�s do uso de shards.

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Por Luiz Em 2014

<Formação completa Programador FullStack/>

Conteúdo Front-end, Back-end e Mobile
Plano de estudo linear
+10 mil exercícios gamificados
+50 projetos reais
Comunidade com + 200 mil alunos
Suporte 365 dias do ano
12 meses de acesso

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Elasticsearch Hadoop: busca el�stica com processamento poderoso

Veja neste artigo como desenvolver para Big Data usando Elasticsearch e Hadoop. O exemplo desenvolvido nesse artigo combina essas duas tecnologias em um sistema de an�lise em tempo real de not�cias publicadas em RSS.