Conheça a Arquitetura Lambda em Java

A arquitetura Lambda, proposta por Nathan Marz (criador da arquitetura) representa a tecnologia mais avan�ada desse assunto em rela��o aos aspectos de modelagem de aplica��es Big Data. Veremos nesse artigo as poss�veis quest�es relacionadas � evolu��o da Big Data para Fast Data, um novo conceito que promete acelerar o processamento de quantidades imensas de informa��es, bem como discutir ferramentas cujo prop�sito � facilitar o desenvolvimento de software nesse cen�rio.

Embora, n�o exista uma defini��o formal do tamanho, formato ou aplicabilidade que engloba todas as caracter�sticas peculiares de uma perspectiva puramente computacional, Big Data pode ser definida como uma quantidade de dados maior do que a tecnologia mais popular � capaz de processar, e por essa defini��o, � um alvo em movimento, ou seja, o que � Big Data de hoje n�o ser� amanh�.

Confira os materiais exclusivos que a DevMedia preparou para os assinantes:

N�o deixe de conferir tamb�m todos os outros cursos de Java da DevMedia.

O modelo 3vs descreve a Big Data atrav�s dos eixos Volume, Variedade e Velocidade, conforme ilustrado na Figura 1. Por Volume entende-se o aumento exponencial da quantidade de dados presentes, gerados e manipulados pelos sistemas computacionais atuais. A Variedade diz respeito �s diferentes fontes de dados que podemos ter hoje em dia e ao contraponto entre a era SQL, onde havia uma estrutura unificada para descri��o e acesso aos dados, e a era NoSQL, onde existem distintos modelos de dados - e at� quem pregue que n�o se deve haver modelo de dados nenhum, ou seja, os dados devem ser completamente n�o estruturados. Finalmente, a Velocidade pode ser traduzida pela necessidade de sistemas cada vez mais r�pidos que possam processar essa infinidade de dados � estruturados e n�o estruturados - em tempo real.

3Vs da Big Data

Figura 1. 3Vs da Big Data

Os dois primeiros Vs � Variedade e Volume � s�o geralmente resolvidos pelo uso de banco de dados NoSQL e de MapReduce. Contudo, para atingir os tr�s eixos envolvidos na Big Data temos que ser capazes de lidar n�o s� com um enorme volume de dados vindos de variadas fontes, mas tamb�m de fazer isso em uma velocidade que seja pr�xima a tempo real.

Com vista nesse problema, Nathan Marz publicou uma arquitetura gen�rica que ele desenvolveu enquanto trabalhava no Twitter. A Figura 2 apresenta uma vis�o geral da arquitetura Lambda. A proposta � que uma mesma informa��o � na figura anotada como �new data� - ir� disparar dois fluxos independentes de an�lise. No primeiro fluxo existem dois componentes: o primeiro � denominado �batch layer�, e � respons�vel por persistir os dados, possivelmente em um banco de dados NoSQL ou em um sistema de arquivos distribu�dos (de forma parecida ao que estamos acostumados); o outro componente, chamado de �serving layer�, � respons�vel por realizar an�lises ou views sobre esses dados persistidos e disponibiliz�-las atrav�s de distintas vis�es. Por outro lado, h� a �speed layer�, que cria an�lises em tempo real. Ambas as camadas podem ser consultadas pela aplica��o final, por exemplo, um site de e-commerce. Al�m disso, os dados de ambas podem ainda ser computados, cruzados ou agregados.

vis�o geral da arquitetura Lambda

Figura 2. Vis�o geral da arquitetura Lambda

A ideia da arquitetura � que essas duas camadas sejam complementares, ou seja, que em toda aplica��o as camadas sejam igualmente importantes. Conforme ilustrado na Figura 3, a camada de batch sempre est� um passo atr�s do tempo real, j� que � esperado que a camada batch fa�a an�lises mais complicadas e que tais an�lises sejam feitas contra uma massa muito maior de dados (ilustrada em azul na figura). Al�m disso, depois que os dados em tempo real sejam �alcan�ados� pela an�lise batch, as informa��es das views em tempo real podem ser simplesmente descartadas para dar lugar a informa��es mais atualizadas.

Rela��o entre os dados analisados em Batch e em
Tempo real

Figura 3. Rela��o entre os dados analisados em Batch e em Tempo real

Al�m disso, ainda que n�o esteja expl�cito no modelo, a arquitetura Lambda prev� a imutabilidade dos dados na camada batch. Ou seja, � esperado que nenhuma informa��o persistida na camada batch seja exclu�da ou alterada, uma ideia interessante, mas controversa. Na Tabela 1 temos um exemplo consistido do valor de endere�os para dois usu�rios, onde, em lugar de cada usu�rio possuir apenas um valor para endere�o (como estamos acostumados), temos persistido o hist�rico completo dos endere�os desses usu�rios, e cada um tem um timestamp representando seu momento de inser��o.

A ideia � que n�o h� a necessidade de modificar os dados, j� que o fato de uma pessoa mudar de endere�o n�o modifica que essa mesma pessoa j� teve outro lugar como endere�o no passado. Assim, a imutabilidade dos dados cria uma rela��o direta entre a informa��o e tempo. Isso traz vantagens muito interessantes, como a possibilidade de criar diferentes views sobre o mesmo conjunto de dados, a possibilidade de excluir ou desativar tais views conforme ficam obsoletas, uma maior seguran�a em rela��o � consist�ncia de dados e a possibilidade de recuperar informa��es que forem danificadas por um erro de programa��o. Obviamente, existem tamb�m problemas como, por exemplo, uma poss�vel duplica��o nos dados e um aumento exponencial na quantidade de informa��es armazenadas.

Usu�rio	Endere�o	Timestamp
Jos�	Lins-SP	Mar�o/1983
Maria	Santo �ngelo-RS	Setembro/1986
Maria	Florian�polis-SC	Fevereiro/2015
Jos�	Florian�polis-SC	Fevereiro/2015

Tabela 1. Imutabilidade de dados

Ainda que n�o seja revolucion�ria em si, a arquitetura Lambda oferece uma boa maneira de organizar o pensamento do arquiteto de software e facilitar a troca de informa��es sobre projetos de desenvolvimento. Ainda assim, algumas d�vidas podem surgir quando vemos esse o modelo. Podemos listar as mais importantes:

No mundo real, qual tipo de aplica��o pode utilizar a arquitetura Lambda?
MapReduce e Hadoop n�o s�o suficientes para Big Data?
Se o Hadoop n�o � suficiente, que ferramenta vou utilizar?
Se � poss�vel, porque n�o fazer todo o processamento em tempo real?

Para responder a primeira quest�o, devemos introduzir um termo relativamente novo: Fast Data. A Fast Data pode ser definida como a capacidade de analisar um fluxo enorme de informa��o em tempo real. O mercado est� se movendo na dire��o da Fast Data, e muitos analistas j� come�am a discutir quais s�o os requisitos dessa nova etapa da Big Data. Assim, algumas aplica��es j� podem se beneficiar dessa novidade, dentre as quais podemos citar:

Aplica��es dependentes de contexto;
Aplica��es dependentes da localiza��o do usu�rio;
Aplica��es de emerg�ncia;
Redes sociais.

No �ltimo caso, muitas redes sociais j� oferecem uma experi�ncia em tempo real, podemos ver isso quando tuitamos ou compartilhamos algo no Facebook. Por outro lado, existem aplica��es, como o Waze e o pr�prio Google, que n�o oferecem uma atualiza��o em tempo real. Essas aplica��es - provavelmente por alguma decis�o de projeto � possuem um comportamento mais pr�ximo do MapReduce, j� que, atendem um tsunami de informa��o de forma escal�vel e com alta vas�o, mas com uma alta lat�ncia � ou seja, uma informa��o nova demora at� estar dispon�vel.

Nesse sentido, � importante notar que mesmo sendo revolucion�rio, � um erro enorme considerar o paradigma MapReduce como solu��o de todos os problemas computacionais. Isso porque, por projeto tal paradigma foi desenvolvido como solu��o de um problema muito espec�fico: aumentar a vas�o na an�lise de dados. Ou seja, o Map Reduce � e os frameworks que o implementam, como o Hadoop � foram pensados para analisar uma quantidade imensa de dados. Entretanto, esse aumento de vas�o n�o implica, necessariamente, num aumento da velocidade dessa an�lise.

Com vista nessa limita��o, muitas ferramentas est�o sendo desenvolvidas para resolver esse problema. Entre elas podemos destacar:

Apache Storm, tamb�m desenvolvida por Nathan Marz, oferece uma interessante abstra��o para o desenvolvimento de aplica��es em tempo real. Sua ideia � criar um cluster no qual os desenvolvedores possam publicar topologias respons�veis pela execu��o de tarefas. Conforme ilustrado na Figura 4, cada topologia � composta por dois componentes: os spouts, que s�o respons�veis por receber a streaming de dados; e os bolts que processar�o esses dados. Al�m disso, o elemento de informa��o b�sico que flui nessa arquitetura � chamado de tupla.

Figura 4. Apache Storm
Apache Kafka, desenvolvido em Scala pelo LinkedIn, � um sistema de troca de mensagens altamente escal�vel e em tempo real. Como apresentado na Figura 5, a ideia � criar um broker (agenciador), um componente de software que se localiza entre os produtores e os consumidores das mensagens a fim de gerenciar e acelerar a an�lise dos dados. A empresa Confluent foi criada pelos mesmos desenvolvedores do Kafka para oferecer a aplica��o como servi�o.

Figura 5. Apache Kafka
Apache Spark tem como trunfo o uso de mem�ria distribu�da a fim de realizar o m�ximo de computa��o poss�vel diretamente na mem�ria principal. A empresa Databricks tamb�m foi criada pelos desenvolvedores dessa ferramenta para oferecer suporte e liderar seu desenvolvimento.
Apache Flume tamb�m oferece uma interessante abstra��o sobre o Map Reduce comum, conectando fontes de dados streaming com persist�ncia no HDFS atrav�s de um canal em mem�ria prim�ria, conforme descrito na Figura 6.

Figura 6. Apache Flume

A primeira conclus�o que podemos depreender da lista de ferramentas � que a funda��o Apache lidera os esfor�os. Isso � �timo porque al�m de atestar a qualidade do software desenvolvido, garante que os c�digos est�o dispon�veis para consulta e que existe uma comunidade de suporte. Al�m disso,

Todas as aplica��es s�o desenvolvidas para atuar em clusteres altamente escal�veis;
A maioria usa ferramentas que tamb�m s�o parte do Hadoop, como o Zookeeper;
Todos usam em algum dos seus componentes o MapReduce;
O Spark e o Flume tentam realizar suas atividades em tempo real atrav�s do uso intensivo da mem�ria prim�ria;
O Storm atinge o tempo real atrav�s da cria��o de monitores que gerenciam o tempo de cada atividade.

Ent�o, qual ferramenta escolher? O Storm parece ser a aplica��o mais completa, por ser mais antiga e possuir uma abstra��o simples e poderosa.

Para ilustrar essa simplicidade, o c�digo das Listagens 1 a 3 apresentam um c�digo completo para executar o Storm em um ambiente de desenvolvimento Java. Essa aplica��o, distribu�da como exemplo no pr�prio c�digo do Storm, ir� contar as palavras de uma s�rie de senten�as emitidas por um Spout. Na Listagem 1 apresenta-se a depend�ncia Maven que deve ser adicionado ao pom.xml.

Listagem 1. Depend�ncia Maven para o Storm


  <dependency>
              <groupId>org.apache.storm</groupId>
              <artifactId>storm-core</artifactId>
              <version>0.9.4</version>
  </dependency>

Na Listagem 2 apresenta-se uma topologia deve ser criada: o ponto mais importante � a declara��o do Spout e dos Bolts. Os Bolts tamb�m est�o definidos como sub-classes da Listagem 2.

Listagem 2. Topologia e defini��o de spouts


  package storm.starter;
   
  import backtype.storm.Config;
  import backtype.storm.LocalCluster;
  import backtype.storm.StormSubmitter;
  import backtype.storm.task.ShellBolt;
  import backtype.storm.topology.BasicOutputCollector;
  import backtype.storm.topology.IRichBolt;
  import backtype.storm.topology.OutputFieldsDeclarer;
  import backtype.storm.topology.TopologyBuilder;
  import backtype.storm.topology.base.BaseBasicBolt;
  import backtype.storm.tuple.Fields;
  import backtype.storm.tuple.Tuple;
  import backtype.storm.tuple.Values;
  import storm.starter.spout.RandomSentenceSpout;
   
  import java.util.HashMap;
  import java.util.Map;
   
  /**
   * This topology demonstrates Storm's stream groupings and multilang capabilities.
   */
  public class WordCountTopology {
    public static class SplitSentence extends ShellBolt implements IRichBolt {
   
      public SplitSentence() {
        super("python", "splitsentence.py");
      }
   
      @Override
      public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("word"));
      }
   
      @Override
      public Map<String, Object> getComponentConfiguration() {
        return null;
      }
    }
   
    public static class WordCount extends BaseBasicBolt {
      Map<String, Integer> counts = new HashMap<String, Integer>();
   
      @Override
      public void execute(Tuple tuple, BasicOutputCollector collector) {
        String word = tuple.getString(0);
        Integer count = counts.get(word);
        if (count == null)
          count = 0;
        count++;
        counts.put(word, count);
        collector.emit(new Values(word, count));
      }
   
      @Override
      public void declareOutputFields(OutputFieldsDeclarer declarer) {
        declarer.declare(new Fields("word", "count"));
      }
    }
   
    public static void main(String[] args) throws Exception {
   
      TopologyBuilder builder = new TopologyBuilder();
   
      builder.setSpout("spout", new RandomSentenceSpout(), 5);
   
      builder.setBolt("split", new SplitSentence(), 8).shuffleGrouping("spout");
      builder.setBolt("count", new WordCount(), 12).fieldsGrouping("split", new Fields("word"));
   
      Config conf = new Config();
      conf.setDebug(true);
   
   
      if (args != null && args.length > 0) {
        conf.setNumWorkers(3);
   
        StormSubmitter.submitTopology(args[0], conf, builder.createTopology());
      }
      else {
        conf.setMaxTaskParallelism(3);
   
        LocalCluster cluster = new LocalCluster();
        cluster.submitTopology("word-count", conf, builder.createTopology());
   
        Thread.sleep(10000);
   
        cluster.shutdown();
      }
    }
  }

Na Listagem 3 apresenta-se o c�digo para o Spout.

Listagem 3. C�digo do Spout


  package storm.starter.spout;
   
  import backtype.storm.spout.SpoutOutputCollector;
  import backtype.storm.task.TopologyContext;
  import backtype.storm.topology.OutputFieldsDeclarer;
  import backtype.storm.topology.base.BaseRichSpout;
  import backtype.storm.tuple.Fields;
  import backtype.storm.tuple.Values;
  import backtype.storm.utils.Utils;
   
  import java.util.Map;
  import java.util.Random;
   
  public class RandomSentenceSpout extends BaseRichSpout {
    SpoutOutputCollector _collector;
    Random _rand;
   
   
    @Override
    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {
      _collector = collector;
      _rand = new Random();
    }
   
    @Override
    public void nextTuple() {
      Utils.sleep(100);
      String[] sentences = new String[]{ "the cow jumped over the moon", "an apple a day keeps the doctor away",
          "four score and seven years ago", "snow white and the seven dwarfs", "i am at two with nature" };
      String sentence = sentences[_rand.nextInt(sentences.length)];
      _collector.emit(new Values(sentence));
    }
   
    @Override
    public void ack(Object id) {
    }
   
    @Override
    public void fail(Object id) {
    }
   
    @Override
    public void declareOutputFields(OutputFieldsDeclarer declarer) {
      declarer.declare(new Fields("word"));
    }
   
  }

Nesse sentido, � f�cil chegar em uma conclus�o um tanto quanto perigosa: se � poss�vel, o melhor � fazer tudo em tempo real. Contudo, � importante lembrar que trabalhar em tempo real tem um custo, que pode se manifestar em distintas perspectivas:

Melhor (mais caro) ambiente computacional;
Equipe mais qualificada;
Maior custo de manuten��o em caso de mudan�as;
Dif�cil integra��o com os ambientes atuais;

Por isso, ao desenvolver para tempo real em Big Data, a arquitetura Lambda oferece um importante ponto de partida, al�m de ser um meio tempo interessante: temos o melhor dos dois mundos � batch e real time - de maneira organizada. A Figura 7 ilustra uma poss�vel inst�ncia da arquitetura Lambda projetada a partir de tr�s tecnologias:

O Hadoop e o HDFS com seu sistema de arquivos distribu�dos;
O banco de dados NoSQL Apache HBase; e
O Apache Storm.

O Hadoop foi usado na Batch Layer para armazenar os dados no HDFS e computar views usando o MapReduce. Essas podem ser agrega��es sobre os dados, contagens ou an�lises estat�sticas. Por exemplo, um e-commerce poderia usar essas views para computar o total hist�rico de vendas de um determinado produto. O Storm � empregado para processar a stream de entrada e criar vis�es mais simples, que provavelmente consideram apenas um intervalo pequeno de tempo � por exemplo, o mesmo e-commerce pode computar quais foram os produtos mais acessados nos �ltimos 15 minutos. Finalmente, na Serving Layer essas vis�es s�o combinadas e armazenadas no HBase, facilitando seu acesso pela aplica��o. O interessante � que mesmo essas quatro tecnologias sendo desenvolvidas em Java ou ferramentas relacionadas (Scala e Clojure), podemos utilizar v�rias outras linguagens de programa��o para desenvolver a itera��o entre os componentes.

Uma poss�vel inst�ncia da arquitetura Lambda

Figura 7. Uma poss�vel inst�ncia da arquitetura Lambda

Normalmente, lidar com tantos componentes n�o � simples.

No exemplo anterior foram listadas tr�s ferramentas que fogem completamente do padr�o tradicional de ci�ncia da computa��o. Assim, existe um not�vel esfor�o para simplificar a implementa��o desse tipo de arquitetura, dentre os quais o mais destacado � o Buildoop, uma ferramenta semelhante ao Apache Bigtop mas com foco na constru��o do ecossistema da arquitetura Lambda. O Buildoop � baseado em Groovy e JSON para defini��es das ferramentas que v�o ser empregadas na arquitetura.

A Listagem 4 ilustra os comandos para cria��o de arquiteturas baseadas na �receita� cluster.json - como � chamada esse tipo de defini��o -, para diferentes tipos de ambientes. A ferramenta est� em r�pido em desenvolvimento, mas apenas nas fases iniciais de maturidade. Contudo, j� pode ser usada para construir sistema completos (vide se��o Links.)

Listagem 4. Receita cluster.json


  deploop -f conf/cluster.json --deploy batch
  deploop -f conf/cluster.json --deploy batch,speed,bus,serving
  deploop --cluster production --layer batch --stop
  deploop --cluster production --layer batch --start

Em resumo, a adi��o de uma outra camada de processamento tem grandes vantagens: os dados (hist�ricos) podem ser processados com alta precis�o sem perda da informa��o de curto prazo, como alertas e insights fornecidos pela camada de tempo real. Al�m disso, a carga computacional de uma nova camada � compensada pela redu��o dr�stica da leitura e escrita no dispositivo de armazenamento, o que permite acessos muito mais r�pidos.

Do ponto de vista conceitual, ainda que seja recente, os conceitos em Big Data evoluem muito rapidamente. Por isso, � importante se manter informado sobre as novidades para a aplica��o da Fast Data. Nesse sentido, o site da arquitetura Lambda oferece muitos recursos para entender mais e tamb�m oferece listas de ferramentas que se encaixam para cada uma das tr�s camadas: batch,speed e serving.

Links

Arquitetura Lambda
http://lambda-architecture.net/

3Vs da Big Data
https://apandre.wordpress.com/2013/11/19/datawatch/

Fast Data
http://blogs.wsj.com/cio/2015/01/06/fast-data-applications-emerge-to-manage-real-time-data/

Apache Storm
https://storm.apache.org/
https://github.com/apache/storm

Apache Kafka
http://kafka.apache.org/
https://github.com/apache/kafka

Apache Spark
https://spark.apache.org
https://github.com/apache/spark

Apache Flume
https://flume.apache.org/
https://github.com/apache/flume

Deploop
http://deploop.github.io/

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Luiz Em 2015

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Te� Sistemas

N�vel 0

Parab�ns pelo Artigo!! Muito interessante.

há +1 ano

Luiz Santana

N�vel

Obrigado!

há +1 ano

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Conhe�a a Arquitetura Lambda em Java

Esse artigo discute como a arquitetura Lambda se encaixa no modelo mais aceito da Big Data em Java, chamado de 3Vs.