Apache Spark: Processando grafos com Big Data

Por que eu devo ler este artigo:Esse artigo � �til para aprendermos como fazer a an�lise de grafos utilizando a ferramenta Spark, solu��o Big Data para processamento de grandes volumes de dados.

Grafos s�o utilizados para a solu��o de uma grande quantidade de problemas em computa��o como, por exemplo, representar o relacionamento de usu�rios em uma rede social, desenvolver algoritmos de roteamento em redes de computadores e a implementa��o de diversos algoritmos de log�stica (como a roteiriza��o de ve�culos e a defini��o do melhor caminho).

Por�m, desses problemas, diversos demandam enorme poder computacional, como achar a melhor sequ�ncia de cidades a serem percorridas ou decidir qual o usu�rio mais influente de uma rede social, ainda mais quando lidamos com Big Data.

Por isso � importante a exist�ncia de ferramentas que possibilitem a an�lise de grafos muito grandes. Pensando nisso, o Apache Spark disponibiliza o componente GraphX, recurso que viabiliza o processamento de algoritmos relacionados a grafos de forma paralela e distribu�da.

O Spark tem ganhado bastante destaque nos �ltimos meses, se tornando, inclusive, o projeto da Apache que mais recebeu commits em 2015. Este resultado se deve principalmente ao excelente desempenho das aplica��es escritas com essa ferramenta, que tem como objetivo processar grandes conjuntos de dados de forma paralela e distribu�da.

O framework mais conhecido com esse prop�sito � o Hadoop, por�m, testes mostram que o Spark possui um desempenho superior ao concorrente em diversas situa��es. Al�m disso, possui v�rias ferramentas que facilitam seu uso, como Spark SQL, Spark Streaming, MLlib e GraphX.

Um tipo de aplica��o que pode ser tratado utilizando ferramentas Big Data s�o os grafos, teoria da Matem�tica comumente adotada para a solu��o de um grande n�mero de problemas. Isso porque, se for vi�vel modelar o problema em v�rtices (ou n�s) e arestas (ou arcos), � poss�vel fazer uso de todo o conhecimento j� constru�do sobre esse conceito.

Pensando nisso, o Spark disponibiliza diversos algoritmos prontos para serem executados, tanto os cl�ssicos de busca e dist�ncia, quanto os focados em problemas atuais, como a verifica��o de conex�o entre usu�rios de redes sociais e o algoritmo de relev�ncia de p�ginas criado pelo Google, o PageRank.

Visto que os algoritmos de grafos, tradicionalmente, dependem de grande poder computacional, o Spark tamb�m leva esse fato em considera��o, sendo uma solu��o que pode ajudar no processamento de aplica��es desse tipo atrav�s do uso do GraphX, um componente constru�do sobre o Spark Core que facilita a an�lise de grafos.

Como um dos seus diferenciais, o Spark � executado de forma paralela e distribu�da, permitindo a escalabilidade das solu��es, e isso com pouca ou nenhuma necessidade de altera��o no c�digo fonte da aplica��o.

Para apresentar a utiliza��o do GraphX, esse artigo trar� a implementa��o de dois exemplos. O primeiro se preocupa em abordar conceitos b�sicos para mostrar um grafo com aeroportos e os voos entre eles, assim como ensinar como realizar alguns c�lculos sobre o mesmo.

Esta solu��o ser� constru�da apenas em Scala, linguagem da API do GraphX. O segundo exemplo, por sua vez, ter� o objetivo de simular uma rede social com usu�rios e suas conex�es e tamb�m far� diversos processamentos sobre o grafo.

No entanto, ter� parte do seu desenvolvimento em Java e parte em Scala, para demonstrar como integrar aplica��es escritas nessas duas linguagens.

Teoria dos Grafos

Grafos � um conceito matem�tico muito popular em computa��o, pois muitos problemas do mundo real podem ser modelados com v�rtices (ou n�s) e arestas.

Por causa disso, existem diversos algoritmos desenvolvidos sobre essa estrutura e que podem ser utilizados independente do dom�nio da aplica��o. Por exemplo, o algoritmo de Dijkstra, um dos mais famosos, pode calcular a melhor rota entre dois roteadores na Internet, entre dois pontos em um mapa e tamb�m o custo do voo entre dois aeroportos sem nenhuma altera��o em seu c�digo.

A Figura 1 traz um exemplo de grafo que representa o caminho entre algumas cidades. Na imagem � poss�vel perceber que de Lins existe um caminho direto para S�o Paulo ou Campinas. Por�m, se voc� quiser ir para o Rio de Janeiro, dever� passar por uma dessas duas cidades.

**Figura 1.** Exemplo de grafo que mostra a conex�o de estradas entre algumas cidades.

Atualmente, um dos principais exemplos da teoria dos grafos pode ser verificado na implementa��o de redes sociais, pois um grafo pode ser usado para modelar as pessoas e seus contatos em uma rede, qual usu�rio compartilhou uma postagem ou uma foto, entre muitas outras op��es.

Atrav�s de outros algoritmos da teoria dos grafos, como a busca em largura ou a busca em profundidade, essas redes sociais conseguem calcular quantos amigos em comum duas pessoas t�m, a dist�ncia em n�mero de contatos que estamos de outras pessoas, entre outras possibilidades.

Por�m, a teoria dos grafos tem um grande problema: normalmente os algoritmos s�o computacionalmente caros. Um exemplo � o algoritmo do caixeiro viajante, tamb�m conhecido como TSP (Travel Sales Problem), que consiste em decidir a melhor sequ�ncia de cidades que uma pessoa deve visitar, de forma a percorrer a menor dist�ncia poss�vel. Esse algoritmo, at� hoje, n�o possui uma solu��o �tima para grafos de qualquer tamanho.

Em teoria dos grafos, uma quest�o importante � saber se as arestas dos grafos t�m dire��o ou n�o. Isto porque em alguns grafos n�o existe orienta��o na aresta, ou seja, ambos os v�rtices que a aresta liga podem ser destino ou origem. Um exemplo onde isso acontece � em redes sociais como o Facebook, na qual n�o faz sentido ter orienta��o na aresta. Se duas pessoas est�o conectadas na rede, n�o existe um usu�rio que � origem e outro que � destino.

Os usu�rios est�o ligados da mesma forma. Por sua vez, em uma rede social como Twitter ou Instagram, os v�rtices precisam ser diferentes, visto que uma pessoa � o �seguidor� e a outra � o �seguido�. Neste caso, faz sentido ter a orienta��o no grafo para diferenciar o tipo de v�rtice e saber qual a rela��o entre eles.

Esse conceito � importante porque no GraphX todos os grafos s�o direcionados, isto �, todas as arestas t�m uma orienta��o, um v�rtice de origem e um v�rtice de destino. A Figura 2 demonstra essas duas op��es.