Apache Spark: introdução

O Apache Spark � uma ferramenta Big Data que tem o objetivo de processar grandes conjuntos de dados de forma paralela e distribu�da. Ela estende o modelo de programa��o MapReduce popularizado pelo Apache Hadoop, facilitando bastante o desenvolvimento de aplica��es de processamento de grandes volumes de dados. Al�m do modelo de programa��o estendido, o Spark tamb�m apresenta uma performance muito superior ao Hadoop, chegando em alguns casos a apresentar uma performance quase 100x maior.

Outra grande vantagem do Spark, � que todos os componentes funcionam integrados na pr�pria ferramenta, como o Spark Streamming, o Spark SQL e o GraphX, diferentemente do Hadoop, onde � necess�rio utilizar ferramentas que se integram a ele, mas que s�o distribu�das separadamente, como o Apache Hive. Al�m disso, outro aspecto importante � que ele permite a programa��o em tr�s linguagens: Java, Scala e Python.

O Spark tem diversos componentes para diferentes tipos de processamentos, todos constru�dos sobre o Spark Core, que � o componente que disponibiliza as fun��es b�sicas para o processamento como as fun��es map, reduce, filter e collect. Entre estes destacam-se s presentes na Figura 1:

O Spark Streamming, que possibilita o processamento de fluxos em tempo real;
O GraphX, que realiza o processamento sobre grafos;
O SparkSQL para a utiliza��o de SQL na realiza��o de consultas e processamento sobre os dados no Spark;
A MLlib, que � a biblioteca de aprendizado de m�quina, com deferentes algoritmos para as mais diversas atividades, como clustering.

**Figura 1**. Componentes do Apache Spark

Esse artigo mostrar� as principais funcionalidades do Spark Core como as transforma��es, que s�o m�todos para realizar opera��es como filtros e mapeamentos, al�m das a��es que s�o opera��es para a realiza��o de contagens e somat�rios.

Arquitetura do Spark

Nessa se��o ser�o explicadas as principais funcionalidades do Spark Core. Primeiro, ser� mostrada a arquitetura das aplica��es e depois veremos os conceitos b�sicos no modelo de programa��o para o processamento de conjuntos de dados.

A arquitetura de uma aplica��o Spark � constitu�da por tr�s partes principais:

O Driver Program, que � a aplica��o principal que gerencia a cria��o e � quem executar� o processamento definido pelo programados;
O Cluster Manager � um componente opcional que s� � necess�rio se o Spark for executado de forma distribu�da. Ele � respons�vel por administrar as m�quinas que ser�o utilizadas como workers;
Os Workers, que s�o as m�quinas que realmente executar�o as tarefas que s�o enviadas pelo Driver Program. Se o Spark for executado de forma local, a m�quina desempenhar� tanto o papel de Driver Program como de Worker.

A Figura 2 mostra a arquitetura do Spark e seus principais componentes.

Al�m da arquitetura, � importante conhecer os principais componentes do modelo de programa��o do Spark. Existem tr�s conceitos fundamentais que ser�o utilizados em todas as aplica��es desenvolvidas:

Resilient Distributed Datasets (RDD): abstraem um conjunto de objetos distribu�dos no cluster, geralmente executados na mem�ria principal. Estes podem estar armazenados em sistemas de arquivo tradicional, no HDFS (HadoopDistributed File System) e em alguns Banco de Dados NoSQL, como Cassandra e HBase. Ele � o objeto principal do modelo de programa��o do Spark, pois s�o nesses objetos que ser�o executados os processamentos dos dados.
Opera��es: representam transforma��es (como agrupamentos, filtros e mapeamentos entre os dados) ou a��es (como contagens e persist�ncias) que s�o realizados em um RDD. Um programa Spark normalmente � definido como uma sequ�ncia de transforma��es ou a��es que s�o realizadas em um conjunto de dados.
Spark Context: o contexto � o objeto que conecta o Spark ao programa que est� sendo desenvolvido. Ele pode ser acessado como uma vari�vel em um programa que para utilizar os seus recursos.

O objetivo desse artigo � apresentar apenas o modelo de programa��o do Spark utilizando os RDDs e as opera��es executando apenas em uma m�quina local. Voc� pode configurar e criar um cluster Spark para execu��o distribu�da e paralela das aplica��es, mas boa not�cia � que as aplica��es criadas para rodar localmente funcionam da mesma forma em um cluster.

Desenvolvimento de Aplica��es

Configurar uma aplica��o Spark � bastante simples: basta adicionar a depend�ncia da ferramenta no Maven. Para o desenvolvimento das aplica��es desse artigo foi utilizado o Maven na IDE Eclipse, por�m � poss�vel desenvolver os mesmos exemplos em qualquer IDE. A Listagem 1 mostra o arquivo pom.xml do projeto.


      <project xmlns="http://maven.apache.org/POM/4.0.0" 
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
            xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
            http://maven.apache.org/xsd/maven-4.0.0.xsd">
            <modelVersion>4.0.0</modelVersion>
            <groupId>com.santana.devmedia</groupId>
            <artifactId>spark-examples</artifactId>
            <version>0.0.1</version>
       
            <dependencies>
                  <dependency>
                        <groupId>org.apache.spark</groupId>
                        <artifactId>spark-core_2.10</artifactId>
                        <version>1.5.2</version>
                  </dependency>
            </dependencies>
      </project>

Listagem 1. Configura��o do projeto Apache Spark com o Maven

Os RDDs, que foram descritos na se��o arquitetura do Spark, s�o o principal componente para a programa��o no Spark, pois eles armazenam os dados na mem�ria, podendo fazer diversas opera��es. Al�m dos comandos para carregar os dados, o Spark tem dois tipos de opera��es principais: as transforma��es e as a��es.

As transforma��es s�o respons�veis por transformar um RDD em outro RDD como, por exemplo, filtros e mapeamentos. J� as a��es s�o opera��es para manipular diretamente os dados como, por exemplo, realizar algum c�lculo com os valores do RDD ou salvar os dados em um arquivo.

Todos os exemplos desse artigo utilizar�o como dado de entrada um arquivo com as leituras das posi��es dos �nibus que � disponibilizada pela prefeitura de S�o Paulo para o acompanhamento do transporte p�blico da cidade. Caso tenha interesse nesses dados, na se��o Links h� o endere�o da API OlhoVivo, ou download pelo site.

A Listagem 2 mostra um exemplo desse arquivo com algumas das leituras dos dados, que s�o o c�digo do �nibus, o c�digo da linha do �nibus, o nome da linha, o hor�rio da leitura da posi��o do �nibus, e a latitude e longitude do �nibus na hora da leitura.


      546 1745 SHOP.CENTER.NORTE 18:40 -23.511788000000003 -46.62516575
      33314 1745 VL.NOVA.CACHOEIRINHA 18:40 -23.479581500000002 -46.65016075
      673 174M MUSEU.DO.IPIRANGA 18:40 -23.500357 -46.615757
      33431 715M JD.MARIA.LUIZA 18:40 -23.534662124999997 -46.62369675
      33441 775A JD.ADALGIZA 18:40 -23.5346621253459997 -46.6546369675
      33441 174M JD.BRASIL 18:40 -23.534662124999997 -46.64562369675

Listagem 2. Leitura das posi��es dos �nibus da cidade de S�o Paulo

Como vimos, o c�digo apenas conta o n�mero de linhas de registros de �nibus que existem no arquivo. A Listagem 3 mostra o c�digo desse exemplo. Todo c�digo do Spark � um processo que pode ser todo programado no m�todo main de uma classe Java: as duas primeiras linhas s�o a configura��o do Spark na aplica��o com as classes SparkConf e JavaSparkContext. O par�metro �local� do m�todo setMaster indica que o processo ser� executado apenas na m�quina local, e o par�metro �BusProcessor� do m�todo setAppName apenas indica um nome para a aplica��o. A classe JavaRDD � a que cont�m um conjunto de dados que ser� processado 3 os dados s�o carregados de um arquivo texto no m�todo textFile, onde o par�metro � o caminho para um arquivo texto no formato apresentado na Listagem 2. Na linha seguinte � utilizada a a��o vcount para contar o n�mero de registros que existe no RDD linhas e depois � apenas apresentado esse n�mero.


      package com.devmedia.transformation;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      public class Exemplo2 {
       
            public static void main(String[] args) {
                  
      // configura��o do Spark
                  SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
                  JavaSparkContext ctx = new JavaSparkContext(conf);
                  
      // carrega os dados dos �nibus de sp
                  JavaRDD<String> linhas = ctx.textFile("c:/dev/teste7.log");
                  long numeroLinhas = linhas.count();
                  
                  // escreve o n�mero de �nibus que existem no arquivo
                  System.out.println(numeroLinhas);
                  
                  ctx.close();
                  
            }
       
      }

Listagem 3. N�mero de linhas de �nibus no arquivo

Uma opera��o bastante �til � a filter, que filtra apenas os RDDs que contenham a parte de uma String passada como par�metro, como mostra a Listagem 4. Nesse exemplo, a configura��o do Spark e o cria��o do RDD s�o iguais �s do exemplo anterior, a diferen�a, � que agora a partir do RDD original que tem todos os registros dos �nibus s�o filtrados apenas aqueles que contenham a String �JD.BONFIGLIOLI�. Depois disso � utilizada a opera��o collect, que transforma um RDD em um ArrayList que pode ser manipulado normalmente.


      package com.devmedia.transformation;
       
      import java.util.List;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      public class Exemplo3 {
       
            public static void main(String[] args) {
                  
      // configura��o do Spark
                  SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
                  JavaSparkContext ctx = new JavaSparkContext(conf);
       
      // carrega os dados dos �nibus de sp
                  JavaRDD<String> linhas = ctx.textFile("c:/dev/teste7.log");
       
      // filtra os registros de �nibus pelo nome da linha
                  JavaRDD<String> linhasFiltradas = linhas.filter(s -> s.contains("JD.BONFIGLIOLI"));
                  
      // mostra todos os �nibus filtrados
                  List<String> resultados = linhasFiltradas.collect();
                  for (String linha : resultados) {
                        System.out.println(linha);
                  }
                  
                  ctx.close();
                  
            }
       
      }

Listagem 4. Utilizando a transforma��o Filter

Outra opera��o interessante � a Union, que une os dados de dois RDDs, como por exemplo, caso seja necess�rio juntar os registros dos �nibus de dois dias diferentes para fazer alguma an�lise, como mostra a Listagem 5.

Novamente, a configura��o da aplica��o � a mesma, por�m, ao carregar os dados s�o criados dois RDDs: um com os dados de s�bado e outro com os dados de domingo. Ambos s�o filtrados com apenas os registros que sejam da linha �JD.BONFIGLIOLI�, e por fim, utilizando o m�todo union, os RDD s�o unidos em apenas um RDD chamado linhasUniao.


    
      package com.devmedia.transformation;
       
      import java.util.List;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      public class Exemplo4 {
       
            public static void main(String[] args) {
                  
      // configura��o do Spark
                  SparkConf conf = new SparkConf().setMaster("local")
                  .setAppName("BusProcessor");
                  JavaSparkContext ctx = new JavaSparkContext(conf);
       
      // carrega os dados dos �nibus de sp de s�bado e domingo
                  JavaRDD<String> linhasSabado = ctx.textFile("c:/dev/teste7.log");
                  JavaRDD<String> linhasDomingo = ctx.textFile("c:/dev/teste8.log");
       
      // filtra os �nibus pelo nome da linha
                  JavaRDD<String> linhasFiltradasSabado = linhasSabado.filter(s -> 
                  s.contains("JD.BONFIGLIOLI"));
                  JavaRDD<String> linhasFiltradasDomingo = linhasDomingo.filter(s -> 
                  s.contains("JD.BONFIGLIOLI"));
                  
      // une os dados de s�bado e domingo
                  JavaRDD<String> linhasUniao = 
                  linhasFiltradasSabado.union(linhasFiltradasDomingo);
                  
      // mostra os �nibus resultantes da uni�o
                  List<String> resultados = linhasUniao.collect();
                  for (String linha : resultados) {
                        System.out.println(linha);
                  }
                  
                  ctx.close();
                  
            }
       
      }

Listagem 5. Utilizando a transforma��o Union

Assim como � poss�vel carregar os dados de um arquivo texto, tamb�m � poss�vel salvar os resultados. Os dados do exemplo anterior que une os registros dos �nibus de dois dias podem ser salvos utilizando o m�todo saveAsTextFile e passando como par�metro o caminho do arquivo que ser� salvo. A Listagem 6 mostra o c�digo dessa opera��o.


      kage com.devmedia.load.save;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      public class Exemplo1 {
       
            public static void main(String[] args) {
                  
      // configura��o do Spark
        SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
        JavaSparkContext ctx = new JavaSparkContext(conf);
       
      // carrega os dados dos �nibus de sp
        JavaRDD<String> linhasSabado = ctx.textFile("c:/dev/teste7.log");
        JavaRDD<String> linhasDomingo = ctx.textFile("c:/dev/teste8.log");
       
      // filtra os �nibus pelo nome da linha
        JavaRDD<String> linhasFiltradasSabado = linhasSabado.filter
        (s -> s.contains("JD.BONFIGLIOLI"));
        JavaRDD<String> linhasFiltradasDomingo = linhasDomingo.filter
        (s -> s.contains("JD.BONFIGLIOLI"));
                  
      // une os dados de s�bado e domingo
        JavaRDD<String> linhasUniao = linhasFiltradasSabado.union(linhasFiltradasDomingo);
                  
      // salva os dados da uni�o em um arquivo
        linhasUniao.saveAsTextFile("c:/dev/onibus-uniao.txt");
        
        ctx.close();
        
            }
       
      }

Listagem 6. Salvando os registros em um arquivo

Por �ltimo, a opera��o mais conhecida desse tipo de ferramenta que � o map reduce, como mostra a Listagem 7.

Inicialmente os dados do arquivo s�o carregados em um RDD e em seguida, utilizando o m�todo mapToPair, as Strings do arquivo s�o mapeados para o nome da linha do �nibus. Por isso o s.split(� �)[2], que divide a String em tokens separados por um espa�o em branco. O terceiro dado dos tokens � o nome da linha do �nibus e o n�mero 1, que indica que � um registro de uma linha. Depois � executado o m�todo reduceByKey, que agrupa todos os resultados que tem a mesma chave, isso �, a mesma linha de �nibus, e soma os valores das linhas (que s�o todos 1). Por fim, todos os registros iguais ser�o agrupados e o somat�rio de quantos �nibus da mesma linha existem � feito.


      package com.devmedia.map.reduce;
       
      import java.util.List;
       
      import org.apache.spark.SparkConf;
      import org.apache.spark.api.java.JavaPairRDD;
      import org.apache.spark.api.java.JavaRDD;
      import org.apache.spark.api.java.JavaSparkContext;
       
      import scala.Tuple2;
       
      public class Exemplo1 {
       
        public static void main(String[] args) {
       
      // configura��o do Spark
        SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
        JavaSparkContext ctx = new JavaSparkContext(conf);
       
      // carrega os dados dos �nibus de sp
        JavaRDD<String> onibus = ctx.textFile("c:/dev/teste7.log");
       
      // faz o map com as linhas de �nibus
        JavaPairRDD<String, Integer> agrupaOnibus = onibus
          .mapToPair(s -> new Tuple2<String, Integer>(s.split(" ")[2], 1));
        JavaPairRDD<String, Integer> numeroOnibus = agrupaOnibus.reduceByKey((x, y) -> x + y);
        List<Tuple2<String, Integer>> lista = numeroOnibus.collect();
       
      // mostra as linhas e o n�mero de �nibus da linha
              for (Tuple2<String, Integer> onibusNumero : lista) {
                    System.out.println("Linha: " + onibusNumero._1());
                    System.out.println("N�mero de �nibus: " + onibusNumero._2());
              }
       
            }
       
      }

Listagem 7. Opera��es Map e Reduce

J� o m�todo collect retorna uma lista com objetos do tipo Tuple2, que � um mapa onde a chave � o nome da linha dos �nibus e o valor � o n�mero de �nibus de uma determinada linha. No fim do c�digo � feita uma itera��o por essa lista. Para mostrar o nome da linha � utilizado o m�todo onibusNumero._1(), e para mostra o n�mero de �nibus da linha � utilizado o m�todo onibusNumero._2().

O resultado da execu��o desse c�digo, visto na Listagem 8, mostra o nome da linha de �nibus e a quantidade de �nibus que realizam essa rota.


      Linha: TATUAPE
      N�mero de �nibus: 7
      Linha: JD.PERY.ALTO
      N�mero de �nibus: 11
      Linha: METRO.TUCURUVI
      N�mero de �nibus: 8
      Linha: SAO.MIGUEL
      N�mero de �nibus: 6
      Linha: JD.BONFIGLIOLI
      N�mero de �nibus: 8
      Linha: TERMINAL.PINHEIROS
      N�mero de �nibus: 14
      Linha: TERM.PRINCESA.ISABEL
      N�mero de �nibus: 2
      Linha: PEDRA.BRANCA
      N�mero de �nibus: 4
      Linha: Jardim.Pery
      N�mero de �nibus: 4
      Linha: COHAB.BRASILANDIA
      N�mero de �nibus: 13 
      Linha: JD.MARIA.LUIZA
      N�mero de �nibus: 10 
      Linha: COHAB.CHRIS
      N�mero de �nibus: 12 
      Linha: JD.ADALGIZA
      N�mero de �nibus: 11

Listagem 8. Resultado da opera��o Map e Reduce

Como vimos, � mostrado o nome da linha do �nibus e o n�mero de �nibus que existem no arquivo que fazem essa linha.

Esse artigo mostrou os conceitos introdut�rios do Apache Spark, que � uma das principais ferramentas Big Data para o processamento de grandes conjuntos de dados. Existem muito mais detalhes e usos dessa ferramenta que n�o foi poss�vel cobrir nesse artigo, mas para quem quiser ir mais a fundo no Spark verifiquem os links que s�o apresentados na se��o Links, como a documenta��o oficial do mesmo, onde podem ser encontradas outras funcionalidades da ferramenta, como o processamento em tempo real e outras opera��es dispon�veis.

Links:

Tecnologias:

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Eduardo Em 2016

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Paulo Alessandre

N�vel

Boa tarde , estou em ´duvida sobre o símbolo " -> " que aparece no código
((s -> s.contains("JD.BONFIGLIOLI"));
e também no código
agrupaOnibus.reduceByKey((x, y) -> x + y);

Não estou muito atualizado com java e não me lembro deste símbolo "->". Poderia me explicar ?

há +1 ano

Marcio Souza

DevMedia

Ol� Paulo.

O s�mbolo � usado em express�es lambda. Sugiro ler a respeito para que entenda como usar as fun��es lambda. Temos um artigo a respeito:
- Como usar fun��es lambda em Java
https://www.devmedia.com.br/como-usar-funcoes-lambda-em-java/32826

JavaRDD<String> linhasFiltradas = linhas.filter(s -> s.contains("JD.BONFIGLIOLI"));

linhas � uma vari�vel do tipo lista. O m�todo filter() vai filtrar nessa lista as linhas que contenham a String "JD.BONFIGLIOLI" e adiciona-las a vari�vel linhasFiltradas .

Sobre o reduceByKey, voc� ter� que ler na documenta��o do Apache Spark. Ele n�o � um m�todo nativo do Java e sim do Apache Spark. No artigo tem um descri��o sobre o que ele executa:

Depois � executado o m�todo reduceByKey, que agrupa todos os resultados que tem a mesma chave, isso �, a mesma linha de �nibus, e soma os valores das linhas (que s�o todos 1).

há +1 ano

Respondido em tempo real

Jean Ferreira

N�vel

Boa tarde.... sou assinante e gostaria de saber onde pego o c�digo fonte para que eu fa�a os meus testes.

há +1 ano

Daniella Gomes

DevMedia

Ol� Jean, tudo bem!?
O c�digo fonte do artigo est� dispon�vel na op��o fontes, logo no topo do post.
Forte abra�o[]

há +1 ano

Erik Coraci

N�vel

Parab�ns pelas informa��es desta ferramenta. Sucesso pra ti!

há +1 ano

Moderacao Devmedia

N�vel 0

Show Erik !!!

Valeu brother pelo coment�rio. :D

Abra�os

há +1 ano

Fernando Gaspar

DevMedia

Parab�ns pelo artigo!

há +1 ano

George

N�vel

Bom dia Eduardo, vc ministra treinamentos ?

há +1 ano

Douglas

N�vel 0

Ol� George, obrigado pelo coment�rio.

Enviamos seu e-mail diretamente para o Eduardo entrar em contato contigo :)

Grande abra�o

há +1 ano

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Introdu��o ao Apache Spark

Este artigo mostrar� as principais funcionalidades do Apache Spark, que � uma ferramenta Big Data para o processamento de grandes conjuntos de dados de forma distribu�da e paralela.

Arquitetura do Spark

Desenvolvimento de Aplica��es

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Perguntas frequentes

Nossos casos de sucesso