Storm vs. Spark: uma introdução à Fast Data

Por que eu devo ler este artigo:Esse artigo � �til para estudantes e profissionais que tenham interesse em conhecer dois frameworks para Fast Data, conceito derivado de Big Data com enfoque em solu��es cujo tempo de processamento seja crucial.

Um caso de uso comum desta tecnologia pode ser encontrado nas redes sociais, onde um evento s� tem sentido se pode ser compartilhado (acessado, visualizado, comentado) por v�rios usu�rios logo ap�s sua publica��o, ou seja, em tempo real.

Dito isso, ao longo do texto analisaremos o Storm e o Spark, dois novos frameworks da Apache que j� s�o empregados por importantes players do mercado de Big Data, como Twitter, Hortonworks, Groupon e Databricks.

Autores: Luiz Henrique Zambom Santana e Eduardo Felipe Zambom Santana

Muitos analistas apontam que o Big Data n�o pode ser visto como a solu��o para todos os problemas computacionais atuais, mesmo para os que envolvem dados. Isso porque a an�lise de dados das aplica��es modernas envolve muitas facetas, como an�lise de estat�sticas, aprendizado de m�quina e solu��es em tempo real.

Do ponto de vista do desenvolvimento de software, o principal fator que permitiu a constru��o de aplica��es Big Data foi o advento do paradigma de MapReduce.

Esse paradigma, publicado em 2004, foi desenvolvido pelo Google para seu mecanismo de busca e tem como objetivo processar grandes quantidades de dados atrav�s da execu��o de Jobs em lote (tradu��o do termo em ingl�s batch), podendo assim computar um incr�vel volume de dados com enorme vas�o (tradu��o do termo em ingl�s throughput).

Durante a �ltima d�cada, o MapReduce revolucionou a TI, principalmente atrav�s do Apache Hadoop, sua implementa��o mais difundida.

Contudo, ao longo do tempo descobriu-se que esse paradigma n�o � suficiente para lidar com aplica��es Big Data nas quais a lat�ncia � t�o ou mais importante que o throughput.

Para entender a diferen�a entre esses dois conceitos, imagine uma aplica��o de controle de servidores respons�vel por enviar e-mails aos administradores de sistemas em caso de falhas. Nestes casos, ter uma grande vaz�o (alcan�ada, por exemplo, com o uso do Hadoop) representaria avisar uma quantidade enorme de usu�rios ao mesmo tempo.

Por outro lado, uma lat�ncia pequena representaria avisar tais usu�rios em poucos segundos ap�s a falha ocorrer.

No cen�rio dessa aplica��o, claramente uma lat�ncia pequena � mais importante que uma vaz�o grande, pois um retardo de horas n�o seria interessante mesmo que a quantidade enorme de administradores seja avisada ap�s a falha ocorrer.

Em vista disso, passou a ser natural o desenvolvimento de ferramentas que garantam baixa lat�ncia no cen�rio de Big Data. Ao conceito que engloba estas novas ferramentas foi dado o nome de Fast Data (dados r�pidos, em ingl�s). Segundo a InfoWorld, representam o pr�ximo passo na evolu��o do Big Data, pois podem ser entendidos como uma contraposi��o � limita��o do Hadoop em prover baixa lat�ncia.

Nesse contexto, tempo real pode ser entendido como um sin�nimo de streaming, pois aplica��es de Fast Data s�o desafiadas a examinar em poucos segundos uma enxurrada de dados recebida de forma incessante, sendo esse exame fundamental para o modelo de neg�cio no qual est�o inseridas.

Esse problema vem sendo estudado em paralelo e de diferentes maneiras pelos grandes players de redes sociais, sendo criados, portanto, distintos tipos de solu��es para streaming como, por exemplo: baseada no modelo publisher/subscriber, como a proposta pelo LinkedIn; em troca de mensagens, como a adotada pelo Twitter; e no uso intensivo de agrega��es, como a projetada pelo Facebook.

Com base nesses conceitos, este artigo apresentar� dois frameworks que prop�em solu��es para an�lise em tempo real de informa��es Big Data: Apache Storm e Apache Spark. Ainda que possam ser usados por um grande n�mero de linguagens, Storm e Spark � desenvolvidos respectivamente em Clojure e Scala, duas linguagens executadas pela JVM � guardam como semelhan�a o fato do Java ser comum a ambos.

Por isso, este artigo apresenta o desenvolvimento de aplica��es usando as APIs Java destas tecnologias com foco principal na cria��o de uma aplica��o de monitoramento em tempo real de p�ginas web.

Al�m desta, outras similaridades importantes entre estes frameworks s�o: baseiam-se em clusters e no uso intensivo de mem�ria principal, e t�m a baixa lat�ncia como principal requisito de projeto. Contudo, essa aparente sobreposi��o � apenas superficial, pois a forma de implementa��o e os casos de uso variam bastante de uma ferramenta para outra, como poderemos constatar nos pr�ximos t�picos.

Apache Storm

O Storm � um framework projetado para ser escal�vel, tolerante a falhas, com garantia de resposta e ainda pensado para prover facilidade de configura��o e opera��o. Esses objetivos de projeto s�o atingidos atrav�s de quatro abstra��es b�sicas, analisadas a seguir e ilustradas na Figura 1:

� Tuple (em portugu�s, Tupla): representa uma mensagem que flui atrav�s da arquitetura do Storm. As tuplas carregam informa��es que v�o sendo computadas, transformadas ou persistidas pelos componentes dessa arquitetura.

Essas informa��es podem ser, por exemplo, um twitter postado pouco tempo antes, um documento recentemente cadastrado ou uma nova leitura do GPS feita por um sensor;

� Spout (em portugu�s, torneira): s�o elementos de c�digo (mais propriamente classes) que est�o conectados a uma fonte de dados para transformar estes dados em tuplas, que por sua vez passam a ser processadas pelo Storm;

� Bolt (em portugu�s, raio): s�o classes respons�veis unicamente por fazer computa��es (como transforma��es, c�lculos, filtros, agrega��es, persist�ncia) sobre as tuplas enviadas pelos spouts ou por outros bolts;

� Topologia: define como Spouts e Bolts s�o combinados em certa aplica��o.

**Figura 1.** Vis�o geral de uma topologia do Storm.

As abstra��es apresentadas s�o suficientes para que possamos projetar e codificar aplica��es usando o Storm. Assim, na sequ�ncia apresentaremos como desenvolver uma solu��o para monitorar um site em tempo real.

Para isso, imagine que estamos acompanhando a primeira p�gina do site da Globo.com a fim de que, quando uma not�cia for adicionada a essa p�gina, possamos extrair dela o texto atrav�s de um framework como o Jsoup (vide Links) e index�-lo em uma ferramenta de busca ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Por Devmedia Em 2015

Acelere seus resultados com o Prime.

Plano Start

12x R$89,00

Saiba mais

Plano Prime

12x R$199,00

Saiba mais

Plano Prime +

12x R$299,00

Saiba mais

Escolha seu Plano	Plano Start	Plano Prime	Plano Prime +
Forma��o completa Programador
Uso de IAs e automa��es
Exerc�cios gamificados
Projetos pr�ticos
Suporte ao conte�do
Comunidade de alunos
Cursos e artigos em +40 tecnologias
Trilha Monetize seu conhecimento
Mentoria T�cnica personalizada
Mentoria fazendo $ em 60 dias
Mentoria Primeiro emprego
Suporte humanizado 24 horas
Aulas exclusivas com especialistas
Mentorias mensais		2 por m�s	ilimitada
Tempo de assinatura	12 meses	12 meses	12 meses
	Saiba mais	Saiba mais	Saiba mais

Quero tirar uma d�vida

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Storm vs. Spark: uma introdu��o � Fast Data

Aprenda neste artigo como processar Big Data em tempo real.

Confira outros conte�dos:

<Perguntas frequentes>

Por onde devo iniciar os estudos?

Em quanto tempo vou me tornar um programador?

Eu preciso de um diploma de faculdade para come�ar a atuar como programador?

Por que a programa��o se tornou a profiss�o mais promissora da atualidade?

Quais s�o os principais diferenciais da DevMedia?

O que eu irei aprender estudando pela DevMedia?

Quais as vantagens de aprender programa��o atrav�s da linguagem JavaScript?

A plataforma oferece certificados?

A plataforma tem suporte ao aluno, como funciona?

A DevMedia me forma como programador Full Stack?

Tem hor�rio para as aulas?

Por que a DevMedia n�o usa videoaulas em sua did�tica?

Preciso de um computador espec�fico para estudar na DevMedia?

Eu consigo estudar pelo celular?

A DevMedia tem aplicativo?

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

Quais s�o os planos de assinatura dispon�veis?

Adquirindo o plano, terei acesso a todo o conte�do?

A plataforma tem planos vital�cios?

A DevMedia tem fidelidade?

Como funciona o cancelamento?

Como excluir meus dados da plataforma?