Apache Spark: trabalhando com SQL em aplicações Big Data

O Apache Spark � uma das principais ferramentas para a an�lise e processamento de grandes conjuntos de dados, por�m, manipular os dados utilizando os m�todos e opera��es do Spark pode ser complicado para quem n�o conhece o modelo de programa��o da ferramenta ou n�o � um programador experiente, por isso, o Spark oferece uma extens�o que possibilita a manipula��o dos dados utilizando aStandard Query Language (SQL) o que facilita bastante o uso da ferramenta.

O Apache Spark � uma ferramenta Big Data que tem o objetivo de processar grandes conjuntos de dados de forma paralela e distribu�da. Essa ferramenta estende o modelo de programa��o MapReduce popularizado pelo Apache Hadoop facilitando bastante o desenvolvimento de aplica��es de processamento de dados. Al�m do modelo de programa��o estendido, o Spark tamb�m apresenta uma performance muito superior ao Hadoop, chegando em alguns casos a apresentar um desempenho quase 100x maior.

Um dos principais componentes do Spark � o Spark SQL, que permite a realiza��o de consultas nos dados com a Standard Query Language (SQL) o que facilita muito o uso da ferramenta para quem j� est� acostumado a manipular dados utilizando essa linguagem, e para programadores que n�o conhecem o modelo de programa��o do Spark.

Para demonstrar a utiliza��o do Spark SQL, ser�o mostrados alguns exemplos de programa��o utilizando a API para transforma��o dos dados do Spark que est�o alocados na mem�ria em uma estrutura chamada DataFrame, que tem formato de tabelas, e por isso permite consultas utilizando SQL. Ser� mostrada tamb�m a arquitetura b�sica das aplica��es Spark, e como configurar aplica��es no Eclipse. Para mostrar as funcionalidades do Spark SQL ser�o desenvolvidas diversas aplica��es que mostram diferentes formas de manipular os dados na ferramenta.

Para conhecer os conceitos b�sicos do Spark como o modelo de programa��o b�sico e os outros componentes do Spark leia o artigo dispon�vel no site.

Arquitetura do Spark

A arquitetura b�sica do Spark SQL � a mesma do Spark, que � constitu�da por tr�s partes principais: o Driver Program, que � a aplica��o principal que gerencia a cria��o e quem executar� o processamento definido pelo programados. O Cluster Manager respons�vel por administrar as maquinas que ser�o utilizadas como workers. Finalmente, os Workers s�o as maquinas que realmente executar�o as tarefas que s�o enviadas pelo Driver Program. A Figura 1 mostra a arquitetura do Spark e seus principais componentes. No Spark SQL essa estrutura b�sica � mantida.

Trabalhando com SQL em aplica��es Big Data — **Figura 1**. Arquitetura do Spark

Al�m da arquitetura � importante conhecer os principais componentes do modelo de programa��o do Spark. Existem tr�s conceitos fundamentais que ser�o utilizados em todas as aplica��es desenvolvidas, que s�o:

Resilient Distributed Datasets (RDD): abstraem um conjunto de objetos distribu�dos no cluster, geralmente executados em mem�ria principal. Ele � o objeto principal do modelo de programa��o do Spark, pois nesses objetos que ser�o executados os processamentos dos dados.
Opera��es: representam transforma��es (como agrupamentos, filtros e mapeamentos entre os dados) ou a��es (como contagens e persist�ncias) que s�o realizados em um RDD;
Contexto Spark (Spark Context): o contexto � o objeto que conecta o Spark ao programa que est� sendo desenvolvido, ele pode ser acessado como uma vari�vel em um programa que pode ser acessada para utilizar os recursos do Spark.

Al�m desses tr�s componentes, que s�o a base do Spark, o Spark SQL adiciona mais uma abstra��o, chamada DataFrame, que � uma extens�o do RDD que organiza os dados em um formato de tabela a partir de uma estrutura de dados, que pode ser um arquivo JSON ou uma classe Java, e que permite a manipula��o dos dados de forma parecida com banco de dados relacionais, inclusive utilizando a Standard Query Language (SQL).

Desenvolvendo Aplica��es com o Spark SQL

O primeiro passo para o desenvolvimento de uma aplica��o do Spark SQL � configurar o projeto, o que � bastante simples, basta adicionar as depend�ncias da ferramenta no arquivo pom.xml do Maven, que s�o a spark-core_2.10, que � a depend�ncia do Spark Core, e a spark-sql_2.10, que � a depend�ncia do Spark SQL. Para o desenvolvimento das aplica��es desse artigo foi utilizado o Maven na IDE Eclipse, por�m � poss�vel desenvolver os mesmos exemplos em qualquer IDE e com outros gerenciados de depend�ncias como o Gradle. A Listagem 1 mostra o arquivo pom.xml do projeto desenvolvido com as depend�ncias configuradas.


<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0
http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.santana.devmedia</groupId>
<artifactId>spark-examples</artifactId>
<version>0.0.1</version>

<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.5.2</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>1.5.2</version>
</dependency>
</dependencies>
</project>

Listagem 1. Configura��o do projeto Apache Spark com o Maven

No Spark os RDDs s�o os principais componentes no modelo de programa��o, por�m, utilizando o Spark SQL s�o utilizados os DataFrames que s�o abstra��es de mais alto n�vel que permitem a manipula��o dos dados com o SQL. Todos os exemplos que ser�o mostrados nas pr�ximas listagens de c�digo utilizam os DataFrames.

Todos os exemplos desse artigo utilizar�o como dado de entrada um arquivo com as leituras das posi��es dos �nibus que � disponibilizada pela prefeitura de S�o Paulo para o acompanhamento do transporte p�blico da cidade. Caso tenha interesse nesses dados, na se��o Links h� o endere�o da API OlhoVivo que � onde esses dados podem ser obtidos. A Listagem 2 mostra um exemplo desse arquivo com algumas das leituras dos dados. Os dados do arquivo s�o o c�digo do �nibus, o c�digo da linha do �nibus, o nome da linha do �nibus, o hor�rio da leitura da posi��o do �nibus, e a latitude e longitude que representam a posi��o do �nibus na hora da leitura.


546 1745 SHOP.CENTER.NORTE 18:40 -23.511788000000003 -46.62516575
33314 1745 VL.NOVA.CACHOEIRINHA 18:40 -23.479581500000002 -46.65016075
673 174M MUSEU.DO.IPIRANGA 18:40 -23.500357 -46.615757
33431 715M JD.MARIA.LUIZA 18:40 -23.534662124999997 -46.62369675
33441 775A JD.ADALGIZA 18:40 -23.5346621253459997 -46.6546369675
33441 174M JD.BRASIL 18:40 -23.534662124999997 -46.64562369675

Listagem 2. Leitura das posi��es dos �nibus da cidade de S�o Paulo

No Spark SQL � necess�rio criar uma classe que representar� os dados que ser�o manipulados, essa classe servir� para que a ferramenta crie a estrutura da tabela em mem�ria do DataFrame, assim, as colunas ter�o os nomes dos atributos da classe, e com ela ser� poss�vel fazer as consultas aos dados. A Listagem 3 mostra o c�digo da classe Onibus, que foi criada para esse fim. Essa classe tem os atributos code para representar o c�digo do �nibus, o codigoLinha que armazena o c�digo da linha, o nomeLinha representando o nome da linha, e a lagitude e longitude que armazenam a posi��o geogr�fica do �nibus. Al�m dos atributos, a classe tem tamb�m o construtor e os m�todos get e set.


package sql;

public class Onibus {

private int code;
private String codigoLinha;
private String nomeLinha;
private double latitude;
private double longitude;

public Onibus(int code, String codigoLinha, String nomeLinha, double latitude, double longitude) {
super();
this.code = code;
this.codigoLinha = codigoLinha;
this.nomeLinha = nomeLinha;
this.latitude = latitude;
this.longitude = longitude;
}

public int getCode() {
return code;
}
public void setCode(int code) {
this.code = code;
}
public String getCodigoLinha() {
return codigoLinha;
}
public void setCodigoLinha(String codigoLinha) {
this.codigoLinha = codigoLinha;
}
public String getNomeLinha() {
return nomeLinha;
}
public void setNomeLinha(String nomeLinha) {
this.nomeLinha = nomeLinha;
}
public double getLatitude() {
return latitude;
}
public void setLatitude(double latitude) {
this.latitude = latitude;
}
public double getLongitude() {
return longitude;
}
public void setLongitude(double longitude) {
this.longitude = longitude;
}

}

Listagem 3. Classe �nibus que representa os dados que ser�o manipulados

O primeiro passo para usar o Spark SQL � carregar os dados em um RDD, existem v�rias fontes de dados poss�veis, como banco de dados relacionais e NoSQL, arquivos e dados recebidos pela internet, depois com os dados em um RDD � poss�vel criar um DataFrame que ter� a estrutura de uma tabela. Nesse programa utilizamos um arquivo com os dados dos �nibus como fonte de dados. A Listagem 4 mostra o c�digo para fazer essa opera��o.


package sql;


import java.util.Date;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;

public class Exemplo1 {

public static void main(String[] args) {

// Configura��o do Spark
SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
JavaSparkContext ctx = new JavaSparkContext(conf);
SQLContext sctx = new SQLContext(ctx);

// Carrega os dados dos �nibus e os transforma no objeto Onibus
JavaRDD<String> linhas = ctx.textFile("c:/dev/onibus.txt");
JavaRDD<Onibus> onibus = linhas.
map(x -> x.split(" ")).
map(o -> new Onibus(Integer.parseInt(o[0]), o[1], o[2],
Double.parseDouble(o[4]), Double.parseDouble(o[5])));

// Cria o DataFrame
DataFrame onibusDF = sctx.createDataFrame(onibus, Onibus.class);

// Mostra os dados do DataFrame
onibusDF.show();
}

}

Listagem 4. Criando as tabelas �nibus com o Spark SQL

As tr�s primeiras linhas fazem a configura��o da aplica��o, indicando que ela ser� executada apenas na m�quina local com o m�todo setMaster, e criando o contexto do Spark. Depois, com o m�todo textFile, os dados dos �nibus s�o carregados em um RDD, por�m esses dados ainda est�o no formato de uma String s� com todos os atributos juntos, ent�o com duas opera��es map, uma para dividir a String usando o m�todo split, e outro para criar os objetos �nibus utilizando o construtor da classe, os dados ficam prontos para a cria��o do DataFrame.

O DataFrame � a estrutura que cria uma tabela em mem�ria com os dados, nesse primeiro exemplo apenas para mostrar a estrutura, � chamado o m�todo show que imprime a tabela e todos os seus registros. A Listagem 5 mostra a sa�da da execu��o desse c�digo, como � poss�vel observar, todos os registros do arquivo foram carregados no DataFrame chamado onibusDF, e ao executar o comando show, todos esses registros foram exibidos no formato de uma tabela. No DataFrame, as colunas s�o criadas com os nomes dos atributos da classe.


+-----+-----------+-------------------+---------------+--------------------+
| code|codigoLinha| latitude| longitude| nomeLinha|
+-----+-----------+-------------------+---------------+--------------------+
| 546| 1745|-23.511788000000003| -46.62516575| SHOP.CENTER.NORTE|
|33314| 1745|-23.479581500000002| -46.65016075|VL.NOVA.CACHOEIRINHA|
| 673| 174M| -23.500357| -46.615757| MUSEU.DO.IPIRANGA|
|33431| 715M|-23.534662124999997| -46.62369675| JD.MARIA.LUIZA|
|33441| 775A| -23.534662125346| -46.6546369675| JD.ADALGIZA|
|33441| 174M|-23.534662124999997|-46.64562369675| JD.BRASIL|
+-----+-----------+-------------------+---------------+--------------------+[

Listagem 5. Sa�da do comando Show

Agora que j� temos a tabela criado, � poss�vel fazer v�rias consultas sobre os dados, o Spark possui um conjunto de m�todos no DataFrame onde � poss�vel criar as consultas via c�digo ou tamb�m � poss�vel criar as consultas utilizando SQL. Inicialmente, na Listagem 6 � mostrado como fazer as consultas com c�digo. Alguns exemplos de m�todos s�o o select, onde � poss�vel selecionar apenas uma ou um conjunto de colunas do DataFrame, o group by, que agrupa um dado por uma determinada coluna e o filter, que filtra o registro por alguma condi��o passada como par�metro.


package sql;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;

public class Exemplo2 {

public static void main(String[] args) {

// Configura��o do Spark
SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
JavaSparkContext ctx = new JavaSparkContext(conf);
SQLContext sctx = new SQLContext(ctx);

// Carrega os dados dos �nibus e os transforma no objeto Onibus

JavaRDD<String> linhas = ctx.textFile("c:/dev/onibus.txt");
JavaRDD<Onibus> onibus = linhas.
map(x -> x.split(" ")).
map(o -> new Onibus(Integer.parseInt(o[0]), o[1], o[2], Double.parseDouble(o[4]), Double.parseDouble(o[5])));


DataFrame onibusDF = sctx.createDataFrame(onibus, Onibus.class);

// Realiza as opera��es nos dados utilizando os m�todos do Spark
onibusDF.show();

onibusDF.select("codigoLinha").show();

onibusDF.groupBy("codigoLinha").count().show();

onibusDF.orderBy("codigoLinha").show();

onibusDF.filter(onibusDF.col("codigoLinha").equalTo("715M-10")).show();



}

}

Listagem 6. Fazendo consultas simples com os dados

O c�digo da listagem anterior tem diversas sa�das, apenas como exemplo, a Listagem 7 mostra a sa�da do comando groupBy, que agrupa os �nibus pelo c�digo da linha desses �nibus na coluna codigoLinha, e conta a quantidade de �nibus para cada linha na coluna count.


+-----------+-----+
|codigoLinha|count|
+-----------+-----+
| 715M| 1|
| 775A| 1|
| 1745| 2|
| 174M| 2|
+-----------+-----+

Listagem 7. Sa�da para o comando groupBy

Al�m de usar os m�todos do Spark para fazer as consultas nos dados, tamb�m � poss�vel utilizar a linguagem SQL, o que facilita muito a manipula��o dos dados para quem j� est� acostumado com essa linguagem. A Listagem 8 mostra o c�digo utilizando SQL. Inicialmente, utilizando o m�todo registerTempTable, � criado um apelido (alias) para o DataFrame, que ser� o nome utilizado nas consultas, depois usando o m�todo sql do DataFrame � poss�vel fazer consultas utilizando grande parte dos comandos SQL. Nesse primeiro exemplo s�o feitas duas consultas simples, apenas utilizando os comandos b�sicos do SQL como o SELECT, FROM e WHERE.


package sql;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;

public class Exemplo3 {

public static void main(String[] args) {

// Configura��o do Spark
SparkConf conf = new SparkConf().setMaster("local").setAppName("BusProcessor");
JavaSparkContext ctx = new JavaSparkContext(conf);
SQLContext sctx = new SQLContext(ctx);


// Carrega os dados dos �nibus e os transforma no objeto Onibus
JavaRDD<String> linhas = ctx.textFile("c:/dev/onibus.txt");
JavaRDD<Onibus> onibus = linhas.
map(x -> x.split(" ")).
map(o -> new Onibus(Integer.parseInt(o[0]), o[1],
o[2], Double.parseDouble(o[4]), Double.parseDouble(o[5])));
DataFrame onibusDF = sctx.createDataFrame(onibus, Onibus.class);

onibusDF.registerTempTable("onibus");

// Realiza as opera��es nos dados utilizando SQL
sctx.sql("SELECT code, codigoLinha, nomeLinha FROM onibus").show();

sctx.sql("SELECT * FROM onibus WHERE codigoLinha like "715M"").show();


}

}

Listagem 8. Fazendo consultas utilizando SQL

A Listagem 9 mostra a sa�da da primeira consulta, que selecionou as colunas code, codigoLinha e nomeLinha da coluna �nibus, criada a partir do DataFrame. Como mostrado no exemplo anterior, � poss�vel utilizar diversas opera��es da linguagem SQL, o que permite buscas sofisticadas nos dados do Spark.


+-----+-----------+--------------------+
| code|codigoLinha| nomeLinha|
+-----+-----------+--------------------+
| 546| 1745| SHOP.CENTER.NORTE|
|33314| 1745|VL.NOVA.CACHOEIRINHA|
| 673| 174M| MUSEU.DO.IPIRANGA|
|33431| 715M| JD.MARIA.LUIZA|
|33441| 775A| JD.ADALGIZA|
|33441| 174M| JD.BRASIL|
+-----+-----------+--------------------+

Listagem 9. Sa�da da consulta a todos os �nibus de c�digo 715M-10

Al�m dos comandos b�sicos de SELECT, tamb�m � poss�vel utilizar alguns comandos mais avan�ados do SQL como o ORDER BY e o GROUP BY tamb�m. A Listagem 10 mostra o c�digo utilizando essas outras possibilidades de consultas.


sctx.sql("SELECT * FROM onibus WHERE codigoLinha like "715M" ORDER BY code").show();

sctx.sql("SELECT code, count(code) FROM onibus GROUP BY code").show();

Listagem 10. Usando outros comandos SQL

Apenas como exemplo, a Listagem 11 mostra a sa�da do comando com o GROUP BY, como � poss�vel observar, na coluna code � mostrado o c�digo do �nibus, e na coluna _c1 (um nome criado pelo Spark, j� que n�o definimos nome para coluna), � mostrado o n�mero de registros para cada c�digo.


+-----+---+
| code|_c1|
+-----+---+
|33431| 1|
|33441| 2|
| 673| 1|
|33314| 1|
| 546| 1|
+-----+---+

Listagem 11. Sa�da do comando Group By

Al�m dos comandos demonstrados aqui, o Spark SQL permite ainda mais op��es da linguagem SQL como joins, sorts e compara��es utilizando express�es l�gicas.

Esse artigo mostrou os conceitos b�sicos do Apache Spark, que � uma das principais ferramentas Big Data para o processamento de grandes conjuntos de dados e tamb�m o uso do componente Spark SQL que permite a manipula��o dos dados utilizando a linguagem SQL, o que facilita muito o uso da ferramenta para quem n�o conhece os conceitos do Spark.

Links:

Tecnologias:

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Eduardo Em 2016

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Leonardo Stabile

N�vel 0

� impress�o minha... ou esse artigo n�o tem nada a ver com o Apache Spark?

há +1 ano

Rodolfo Gomes

DevMedia

Fala Leonardo, tranquilo?

Super obrigado pelo feedback construtivo, houve um problema de carregamento do conte�do mas j� ajustamos =D

E no que precisar � s� falar

TMJ

há +1 ano

Respondido em tempo real

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Apache Spark: Trabalhando com SQL em aplica��es Big Data

O Spark oferece uma extens�o que possibilita a manipula��o dos dados utilizando a Standard Query Language (SQL), o que facilita bastante o uso da ferramenta. Neste artigo a conheceremos melhor.