Apache Spark: introdu��o

O Apache Spark � uma ferramenta Big Data que tem o objetivo de processar grandes conjuntos de dados de forma paralela e distribu�da. Ela estende o modelo de programaç�o MapReduce popularizado pelo Apache Hadoop, facilitando bastante o desenvolvimento de aplicaç�es de processamento de grandes volumes de dados. Al�m do modelo de programaç�o estendido, o Spark tamb�m apresenta uma performance muito superior ao Hadoop, chegando em alguns casos a apresentar uma performance quase 100x maior.

Outra grande vantagem do Spark, � que todos os componentes funcionam integrados na pr�pria ferramenta, como o Spark Streamming, o Spark SQL e o GraphX, diferentemente do Hadoop, onde � necess�rio utilizar ferramentas que se integram a ele, mas que s�o distribu�das separadamente, como o Apache Hive. Al�m disso, outro aspecto importante � que ele permite a programaç�o em tr�s linguagens: Java, Scala e Python.

O Spark tem diversos componentes para diferentes tipos de processamentos, todos constru�dos sobre o Spark Core, que � o componente que disponibiliza as funç�es b�sicas para o processamento como as funç�es map, reduce, filter e collect. Entre estes destacam-se s presentes na Figura 1:

O Spark Streamming, que possibilita o processamento de fluxos em tempo real;
O GraphX, que realiza o processamento sobre grafos;
O SparkSQL para a utilizaç�o de SQL na realizaç�o de consultas e processamento sobre os dados no Spark;
A MLlib, que � a biblioteca de aprendizado de m�quina, com deferentes algoritmos para as mais diversas atividades, como clustering.

Figura 1. Componentes do Apache Spark

Esse artigo mostrar� as principais funcionalidades do Spark Core como as transformaç�es, que s�o m�todos para realizar operaç�es como filtros e mapeamentos, al�m das aç�es que s�o operaç�es para a realizaç�o de contagens e somat�rios.

Arquitetura do Spark

Nessa seç�o ser�o explicadas as principais funcionalidades do Spark Core. Primeiro, ser� mostrada a arquitetura das aplicaç�es e depois veremos os conceitos b�sicos no modelo de programaç�o para o processamento de conjuntos de dados.

A arquitetura de uma aplicaç�o Spark � constitu�da por tr�s partes principais:

O Driver Program, que � a aplicaç�o principal que gerencia a criaç�o e � quem executar� o processamento definido pelo programados;
O Cluster Manager � um componente opcional que s� � necess�rio se o Spark for executado de forma distribu�da. Ele � respons�vel por administrar as m�quinas que ser�o utilizadas como workers;
Os Workers, que s�o as m�quinas que realmente executar�o as tarefas que s�o enviadas pelo Driver Program. Se o Spark for executado de forma local, a m�quina desempenhar� tanto o papel de Driver Program como de Worker.

A Figura 2 mostra a arquitetura do Spark e seus principais componentes.

Figura 2. Arquitetura do Spark

Al�m da arquitetura, � importante conhecer os principais componentes do modelo de programaç�o do Spark. Existem tr�s conceitos fundamentais que ser�o utilizados em todas as aplicaç�es desenvolvidas:

Resilient Distributed Datasets (RDD): abstraem um conjunto de objetos distribu�dos no cluster, geralmente executados na mem�ria principal. Estes podem estar armazenados em sistemas de arquivo tradicional, no HDFS (HadoopDistributed File System) e em alguns Banco de Dados NoSQL, como Cassandra e HBase. Ele � o objeto principal do modelo de programaç�o do Spark, pois s�o nesses objetos que ser�o executados os processamentos dos dados.
Operaç�es: representam transformaç�es (como agrupamentos, filtros e mapeamentos entre os dados) ou aç�es (como contagens e persist�ncias) que s�o realizados em um RDD. Um programa Spark normalmente � definido como uma sequ�ncia de transformaç�es ou aç�es que s�o realizadas em um conjunto de dados.
Spark Context: o contexto � o objeto que conecta o Spark ao programa que est� sendo desenvolvido. Ele pode ser acessado como uma vari�vel em um programa que para utilizar os seus recursos.

O objetivo desse artigo � apresentar apenas o modelo de programaç�o do Spark utilizando os RDDs e as operaç�es executando apenas em uma m�quina local. Voc� pode configurar e criar um cluster Spark para execuç�o distribu�da e paralela das aplicaç�es, mas boa not�cia � que as aplicaç�es criadas para rodar localmente funcionam da mesma forma em um cluster.

Desenvolvimento de Aplicaç�es

Configurar uma aplicaç�o Spark � bastante simples: basta adicionar a depend�ncia da ferramenta no Maven. Para o desenvolvimento das aplicaç�es desse artigo foi utilizado o Maven na IDE Eclipse, por�m � poss�vel desenvolver os mesmos exemplos em qualquer IDE. A Listagem 1 mostra o arquivo pom.xml do projeto.


      <project xmlns="http://maven.apache.org/POM/4.0.0" 
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
            xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
            http://maven.apache.org/xsd/maven-4.0.0.xsd">
            <modelVersion>4.0.0</modelVersion>
            <groupId>com.santana.devmedia</groupId>
            <artifactId>spark-examples</artifactId>
            <version>0.0.1</version>
       
            <dependencies>
                  <dependency>
                        <groupId>org.apache.spark</groupId>
                        <artifactId>spark-core_2.10</artifactId>
                        <version>1.5.2</version>
                  </dependency>
            </dependencies>
      </project>

Listagem 1. Configuraç�o do projeto Apache Spark com o Maven

Os RDDs, que foram descritos na seç�o arquitetura do Spark, s�o o principal componente para a programaç�o no Spark, pois eles armazenam os dados na mem�ria, podendo fazer diversas operaç�es. Al�m dos comandos para carregar os dados, o Spark tem dois tipos de operaç�es principais: as transformaç�es e as aç�es.

As transformaç�es s�o respons�veis por transformar um RDD em outro RDD como, por exemplo, filtros e mapeamentos. J� as aç�es s�o operaç�es para manipular diretamente os dados como, por exemplo, realizar algum c�lculo com os valores do RDD ou salvar os dados em um arquivo.

Todos os exemplos desse artigo utilizar�o como dado de entrada um arquivo com as leituras das posiç�es dos �nibus que � disponibilizada pela prefeitura de S�o Paulo para o acompanhamento do transporte p�blico da cidade. Caso tenha interesse nesses dados, na seç�o Links h� o endereço da API OlhoVivo, ou download pelo site.

A Listagem 2 mostra um exemplo desse arquivo com algumas das leituras dos dados, que s�o o c�digo do �nibus, o c�digo da linha do �nibus, o nome da linha, o hor�rio da leitura da posiç�o do �nibus, e a latitude e longitude do �nibus na hora da leitura.


      546 1745 SHOP.CENTER.NORTE 18:40 -23.511788000000003 -46.62516575
      33314 1745 VL.NOVA.CACHOEIRINHA 18:40 -23.479581500000002 -46.65016075
      673 174M MUSEU.DO.IPIRANGA 18:40 -23.500357 -46.615757
      33431 715M JD.MARIA.LUIZA 18:40 -23.534662124999997 -46.62369675
      33441 775A JD.ADALGIZA 18:40 -23.5346621253459997 -46.6546369675
      33441 174M JD.BRASIL 18:40 -23.534662124999997 -46.64562369675

Listagem 2. Leitura das posiç�es dos �nibus da cidade de S�o Paulo

Como vimos, o c�digo apenas conta o n�mero de linhas de registros de �nibus que existem no arquivo. A Listagem 3 mostra o c�digo desse exemplo. Todo c�digo do Spark � um processo que pode ser todo programado no m�todo main de uma classe Java: as duas primeiras linhas s�o a configuraç�o do Spark na aplicaç�o com as classes SparkConf e JavaSparkContext. O par�metro �local� do m�todo setMaster indica que o processo ser� executado apenas na m�quina local, e o par�metro �BusProcessor� do m�todo setAppName apenas indica um nome para a aplicaç�o. A classe JavaRDD � a que cont�m um conjunto de dados que ser� processado 3 os dados s�o carregados de um arquivo texto no m�todo textFile, onde o par�metro � o caminho para um arquivo texto no formato apresentado na Listagem 2. Na linha seguinte � utilizada a aç�o vcount para contar o n�mero de registros que existe no RDD linhas e depois � apenas apresentado esse n�mero.


      package com.devmedia.transformation;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      public class Exemplo2 {
       
            public static void main(String[] args) {
                  
      // configuraç�o do Spark
                  SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
                  JavaSparkContext ctx = new JavaSparkContext(conf);
                  
      // carrega os dados dos �nibus de sp
                  JavaRDD<String> linhas = ctx.textFile("c:/dev/teste7.log");
                  long numeroLinhas = linhas.count();
                  
                  // escreve o n�mero de �nibus que existem no arquivo
                  System.out.println(numeroLinhas);
                  
                  ctx.close();
                  
            }
       
      }

Listagem 3. N�mero de linhas de �nibus no arquivo

Uma operaç�o bastante �til � a filter, que filtra apenas os RDDs que contenham a parte de uma String passada como par�metro, como mostra a Listagem 4. Nesse exemplo, a configuraç�o do Spark e o criaç�o do RDD s�o iguais �s do exemplo anterior, a diferença, � que agora a partir do RDD original que tem todos os registros dos �nibus s�o filtrados apenas aqueles que contenham a String �JD.BONFIGLIOLI�. Depois disso � utilizada a operaç�o collect, que transforma um RDD em um ArrayList que pode ser manipulado normalmente.


      package com.devmedia.transformation;
       
      import java.util.List;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      public class Exemplo3 {
       
            public static void main(String[] args) {
                  
      // configuraç�o do Spark
                  SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
                  JavaSparkContext ctx = new JavaSparkContext(conf);
       
      // carrega os dados dos �nibus de sp
                  JavaRDD<String> linhas = ctx.textFile("c:/dev/teste7.log");
       
      // filtra os registros de �nibus pelo nome da linha
                  JavaRDD<String> linhasFiltradas = linhas.filter(s -> s.contains("JD.BONFIGLIOLI"));
                  
      // mostra todos os �nibus filtrados
                  List<String> resultados = linhasFiltradas.collect();
                  for (String linha : resultados) {
                        System.out.println(linha);
                  }
                  
                  ctx.close();
                  
            }
       
      }

Listagem 4. Utilizando a transformaç�o Filter

Outra operaç�o interessante � a Union, que une os dados de dois RDDs, como por exemplo, caso seja necess�rio juntar os registros dos �nibus de dois dias diferentes para fazer alguma an�lise, como mostra a Listagem 5.

Novamente, a configuraç�o da aplicaç�o � a mesma, por�m, ao carregar os dados s�o criados dois RDDs: um com os dados de s�bado e outro com os dados de domingo. Ambos s�o filtrados com apenas os registros que sejam da linha �JD.BONFIGLIOLI�, e por fim, utilizando o m�todo union, os RDD s�o unidos em apenas um RDD chamado linhasUniao.


    
      package com.devmedia.transformation;
       
      import java.util.List;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      public class Exemplo4 {
       
            public static void main(String[] args) {
                  
      // configuraç�o do Spark
                  SparkConf conf = new SparkConf().setMaster("local")
                  .setAppName("BusProcessor");
                  JavaSparkContext ctx = new JavaSparkContext(conf);
       
      // carrega os dados dos �nibus de sp de s�bado e domingo
                  JavaRDD<String> linhasSabado = ctx.textFile("c:/dev/teste7.log");
                  JavaRDD<String> linhasDomingo = ctx.textFile("c:/dev/teste8.log");
       
      // filtra os �nibus pelo nome da linha
                  JavaRDD<String> linhasFiltradasSabado = linhasSabado.filter(s -> 
                  s.contains("JD.BONFIGLIOLI"));
                  JavaRDD<String> linhasFiltradasDomingo = linhasDomingo.filter(s -> 
                  s.contains("JD.BONFIGLIOLI"));
                  
      // une os dados de s�bado e domingo
                  JavaRDD<String> linhasUniao = 
                  linhasFiltradasSabado.union(linhasFiltradasDomingo);
                  
      // mostra os �nibus resultantes da uni�o
                  List<String> resultados = linhasUniao.collect();
                  for (String linha : resultados) {
                        System.out.println(linha);
                  }
                  
                  ctx.close();
                  
            }
       
      }

Listagem 5. Utilizando a transformaç�o Union

Assim como � poss�vel carregar os dados de um arquivo texto, tamb�m � poss�vel salvar os resultados. Os dados do exemplo anterior que une os registros dos �nibus de dois dias podem ser salvos utilizando o m�todo saveAsTextFile e passando como par�metro o caminho do arquivo que ser� salvo. A Listagem 6 mostra o c�digo dessa operaç�o.


      kage com.devmedia.load.save;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      public class Exemplo1 {
       
            public static void main(String[] args) {
                  
      // configuraç�o do Spark
        SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
        JavaSparkContext ctx = new JavaSparkContext(conf);
       
      // carrega os dados dos �nibus de sp
        JavaRDD<String> linhasSabado = ctx.textFile("c:/dev/teste7.log");
        JavaRDD<String> linhasDomingo = ctx.textFile("c:/dev/teste8.log");
       
      // filtra os �nibus pelo nome da linha
        JavaRDD<String> linhasFiltradasSabado = linhasSabado.filter
        (s -> s.contains("JD.BONFIGLIOLI"));
        JavaRDD<String> linhasFiltradasDomingo = linhasDomingo.filter
        (s -> s.contains("JD.BONFIGLIOLI"));
                  
      // une os dados de s�bado e domingo
        JavaRDD<String> linhasUniao = linhasFiltradasSabado.union(linhasFiltradasDomingo);
                  
      // salva os dados da uni�o em um arquivo
        linhasUniao.saveAsTextFile("c:/dev/onibus-uniao.txt");
        
        ctx.close();
        
            }
       
      }

Listagem 6. Salvando os registros em um arquivo

Por �ltimo, a operaç�o mais conhecida desse tipo de ferramenta que � o map reduce, como mostra a Listagem 7.

Inicialmente os dados do arquivo s�o carregados em um RDD e em seguida, utilizando o m�todo mapToPair, as Strings do arquivo s�o mapeados para o nome da linha do �nibus. Por isso o s.split(� �)[2], que divide a String em tokens separados por um espaço em branco. O terceiro dado dos tokens � o nome da linha do �nibus e o n�mero 1, que indica que � um registro de uma linha. Depois � executado o m�todo reduceByKey, que agrupa todos os resultados que tem a mesma chave, isso �, a mesma linha de �nibus, e soma os valores das linhas (que s�o todos 1). Por fim, todos os registros iguais ser�o agrupados e o somat�rio de quantos �nibus da mesma linha existem � feito.


      package com.devmedia.map.reduce;
       
      import java.util.List;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaPairRDD;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      import scala.Tuple2;
       
      public class Exemplo1 {
       
        public static void main(String[] args) {
       
      // configuraç�o do Spark
        SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
        JavaSparkContext ctx = new JavaSparkContext(conf);
       
      // carrega os dados dos �nibus de sp
        JavaRDD<String> onibus = ctx.textFile("c:/dev/teste7.log");
       
      // faz o map com as linhas de �nibus
        JavaPairRDD<String, Integer> agrupaOnibus = onibus
          .mapToPair(s -> new Tuple2<String, Integer>(s.split(" ")[2], 1));
        JavaPairRDD<String, Integer> numeroOnibus = agrupaOnibus.reduceByKey((x, y) -> x + y);
        List<Tuple2<String, Integer>> lista = numeroOnibus.collect();
       
      // mostra as linhas e o n�mero de �nibus da linha
              for (Tuple2<String, Integer> onibusNumero : lista) {
                    System.out.println("Linha: " + onibusNumero._1());
                    System.out.println("N�mero de �nibus: " + onibusNumero._2());
              }
       
            }
       
      }

Listagem 7. Operaç�es Map e Reduce

J� o m�todo collect retorna uma lista com objetos do tipo Tuple2, que � um mapa onde a chave � o nome da linha dos �nibus e o valor � o n�mero de �nibus de uma determinada linha. No fim do c�digo � feita uma iteraç�o por essa lista. Para mostrar o nome da linha � utilizado o m�todo onibusNumero._1(), e para mostra o n�mero de �nibus da linha � utilizado o m�todo onibusNumero._2().

O resultado da execuç�o desse c�digo, visto na Listagem 8, mostra o nome da linha de �nibus e a quantidade de �nibus que realizam essa rota.


      Linha: TATUAPE
      N�mero de �nibus: 7
      Linha: JD.PERY.ALTO
      N�mero de �nibus: 11
      Linha: METRO.TUCURUVI
      N�mero de �nibus: 8
      Linha: SAO.MIGUEL
      N�mero de �nibus: 6
      Linha: JD.BONFIGLIOLI
      N�mero de �nibus: 8
      Linha: TERMINAL.PINHEIROS
      N�mero de �nibus: 14
      Linha: TERM.PRINCESA.ISABEL
      N�mero de �nibus: 2
      Linha: PEDRA.BRANCA
      N�mero de �nibus: 4
      Linha: Jardim.Pery
      N�mero de �nibus: 4
      Linha: COHAB.BRASILANDIA
      N�mero de �nibus: 13 
      Linha: JD.MARIA.LUIZA
      N�mero de �nibus: 10 
      Linha: COHAB.CHRIS
      N�mero de �nibus: 12 
      Linha: JD.ADALGIZA
      N�mero de �nibus: 11

Listagem 8. Resultado da operaç�o Map e Reduce

Como vimos, � mostrado o nome da linha do �nibus e o n�mero de �nibus que existem no arquivo que fazem essa linha.

Esse artigo mostrou os conceitos introdut�rios do Apache Spark, que � uma das principais ferramentas Big Data para o processamento de grandes conjuntos de dados. Existem muito mais detalhes e usos dessa ferramenta que n�o foi poss�vel cobrir nesse artigo, mas para quem quiser ir mais a fundo no Spark verifiquem os links que s�o apresentados na seç�o Links, como a documentaç�o oficial do mesmo, onde podem ser encontradas outras funcionalidades da ferramenta, como o processamento em tempo real e outras operaç�es dispon�veis.

Links:

Introdu��o ao Apache Spark

Este artigo mostrará as principais funcionalidades do Apache Spark, que é uma ferramenta Big Data para o processamento de grandes conjuntos de dados de forma distribuída e paralela.

Arquitetura do Spark

Desenvolvimento de Aplicaç�es

Artigos relacionados