Aten��o: esse artigo tem um v�deo complementar. Clique e assista!

De que trata o artigo:

Uma introdu��o ao Terracotta ES, um middleware open source para Java que sincroniza objetos de v�rios processos de forma eficiente e autom�tica e sem exigir nenhuma altera��o no seu c�digo.

Para que serve:

Muitas aplica��es de miss�o cr�tica precisam ser implantadas em cluster, fazer caching agressivo de dados persistentes, conte�do gerado dinamicamente entre outras informa��es; ou simplesmente, sincronizar dados de forma imediata e eficiente com outros processos. A maneira mais f�cil de satisfazer a estas necessidades � usando um middleware que coloca parte do heap da JVM �na rede�, permitindo que v�rios processos compartilhem os mesmos objetos. O Terracotta implementa esta id�ia de forma transparente e com alto desempenho.

Em que situa��o o tema � �til:

Aplica��es em cluster (Java EE ou n�o); aplica��es que usam um SGBD e necessitam de um cache de segundo n�vel para melhorar o desempenho; aplica��es web que geram muito conte�do din�mico, entre muitas outras.

Na Introdu��o de �Programando com Pools� (Edi��o 57), comecei dizendo: �A programa��o �s vezes parece ser um campo tomado por uma enorme e confusa variedade de t�cnicas. (...) Fazendo um esfor�o de s�ntese, veremos que existe um n�mero relativamente pequeno de fundamentos que embasam toda a programa��o.� Pooling � uma dessas t�cnicas fundamentais; podemos citar outra t�cnica igualmente fundamental e relacionada, o caching. S�o id�ias parecidas, mas n�o iguais:

� Um pool � uma cole��o de objetos cuja cria��o � custosa, sendo mais eficiente um protocolo de aquisi��o / libera��o permitindo reciclagem dos mesmos objetos em momentos distintos;

� Um cache � uma cole��o de objetos que replicam informa��es cuja consulta � custosa (como registros de um BD, objetos de outro processo, ou resultados de algum c�lculo complexo).

� comum que o mesmo sistema implemente pools e caches: por exemplo, uma ferramenta de persist�ncia OO como o Hibernate ou JPA pode conter pools de conex�es com o SGBD, e um cache de entidades persistentes, entre outros.

A maior diferen�a entre um pool e um cache reside na maneira como os objetos s�o gerenciados. Num cache, os objetos s�o diferenciados, sendo identificados por IDs; j� num pool, os objetos s�o �an�nimos�, considerados iguais para os prop�sitos dos seus clientes, bastando pegar qualquer objeto que esteja dispon�vel. Mas ambos s�o muito parecidos estruturalmente: s�o cole��es que podem ser preenchidas e consultadas, suportando acesso concorrente, estrat�gias de gerenciamento de recursos (ex.: limitar o n�mero de objetos contidos para evitar a exaust�o de recursos externos ou da mem�ria), e outras caracter�sticas comuns.

Uma terceira t�cnica igualmente fundamental � a distribui��o: na minha defini��o particular, � a capacidade de tratar v�rios computadores como se fossem um s�. Ou, alternativamente, fazer com que uma aplica��o utilize diversos recursos � como CPUs, armazenamento, middlewares como SGBDs, e outras aplica��es � de forma transparente em rela��o � sua disposi��o numa rede. A distribui��o � um fator especialmente cr�tico em sistemas de grande porte (onde espalhamos a aplica��o por v�rias m�quinas que funcionam simultaneamente para dividir a carga de trabalho), ou em sistemas de �miss�o cr�tica�, com baixa toler�ncia a falhas (onde replicamos a aplica��o em m�quinas que funcionam alternadamente, para que falhas isoladas n�o causem indisponibilidade).

Juntando tudo � como n�s desenvolvedores n�o nascemos para ter uma vida f�cil � � fatal que algum dia, tenhamos que juntar todas essas t�cnicas numa coisa s�. Sim, um dia voc� ter� que trabalhar com um pool distribu�do, ou um cache distribu�do. Quase todo desenvolvedor veterano j� se deparou com sistemas que se beneficiariam de tais combina��es (embora possa ter percebido o fato ou n�o). � poss�vel criar solu��es ad-hoc para estas necessidades; eu mesmo j� fiz isso mais vezes do que gostaria de confessar. Mas � muito mais f�cil adotar uma ferramenta que resolva o problema de forma simples e robusta. Neste artigo examinaremos esta ferramenta, o Terracotta.

Antes de seguir a leitura deste artigo, veja a apresenta��o elaborada por Osvaldo e entenda a import�ncia do Terracotta; sem d�vida uma ferramenta importante e recomendada para todo desenvolvedor.

O problema

Vamos dar um exemplo simples, �mundo real�. Sua aplica��o de vendas online tem uma tabela PRODUTO, que cont�m alguns milhares de registros, um para cada tipo de produto sendo vendido. Essa tabela � extremamente acessada, pois est� envolvida no carrinho de compras, faturamento, controle de estoque, etc. � quase todas as entidades e opera��es importantes da aplica��o. � �bvio que o acesso � tabela de produtos ir� consumir uma quantidade significativa de recursos, com consultas envolvendo esta tabela v�rias vezes por segundo.

A solu��o

A resposta �bvia para este problema �: vamos fazer cache da tabela PRODUTOS. Ao inicializar a aplica��o, carregamos esta tabela inteira para a mem�ria, colocando-a em uma ou mais estruturas de dados que refletem as sele��es mais comuns da tabela. Por exemplo, podemos ter um


  Map<Long, Produto> prodsPorChave;

que permite consultas individuais por PK, e um


  Map<Categoria, List<Produto>> prodsPorCategoria;

que responde a uma query �Listar todos os Produtos de uma Categoria�, muito usada no Carrinho de Compras, que a cada request retorna pelo menos um combobox preenchido com dezenas ou centenas destes registros. (Quase sempre os mesmos registros, para a Categoria selecionada.)

Como fazer o cache desta tabela? Podemos carreg�-la para a mem�ria, index�-la naqueles Maps, e ent�o s� precisamos fazer um get() no lugar de cada query. Isso costuma funcionar muito bem para �tabelas de dom�nio� fixas, por exemplo uma tabela ESTADO com as 27 unidades federativas do Brasil, que na pr�tica nunca muda.

Esse �na pr�tica nunca muda� pode n�o ser sin�nimo de �nunca muda�; lembre-se que o conjunto de estados do Brasil mudou em 1988 com a cria��o do Estado de Tocantins. Mas, sejamos razo�veis: se voc� tiver que fazer um restart da aplica��o para carregar essa tabela a cada v�rias d�cadas, quando uma revis�o constitucional mexer na estrutura federativa, n�o � um desastre... e se for, at� a pr�xima vez que isso acontecer voc� j� se aposentou. ;-)

Infelizmente, a tabela de Produtos n�o � uma tabela de Dom�nio �cl�ssica�. O conjunto de Produtos � bastante est�vel, mas pode sofrer mudan�as com freq��ncia relativamente alta. Novos Produtos podem ser adicionados toda semana; pequenas atualiza��es em Produtos existentes, como altera��es de pre�o, podem ocorrer v�rias vezes por dia.

Algumas aplica��es tentam resolver o problema de uma forma simples: todas as atualiza��es na tabela s�o feitas atrav�s de um m�todo negocial que realiza a mesma opera��o simultaneamente no BD e nas estruturas de cache em mem�ria. Isso pode ser complicado devido ao controle transacional (atualiza��es do cache devem acontecer se e somente se a transa��o faz commit), mas h� uma solu��o simples para isso: basta limpar o cache toda vez que qualquer update for feito, e a pr�xima transa��o que tentar ler o cache ir� repopul�-lo em demanda (Listagem 1). Se a transa��o falhar com um rollback, n�o haver� nenhum problema, al�m do custo de repopular o cache (com o mesmo conte�do de antes) na transa��o seguinte.

Listagem 1. Cache ad-hoc simples, com estrat�gia de popula��o em demanda.


  import java.util.*;
   
  public class CacheProdutos {
    private static Map<Long, Produto> cache;
    public static synchronized Produto get (Long pk) {
      return cache().get(pk);
    }
    public static synchronized void clear () {
      cache = null;
    }
    private static synchronized Map<Long, Produto> cache () {
      if (cache == null) {
        // Inicializa o cache a partir de uma query�
      }
      return cache;
    }
  } ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Por Osvaldo Em 2009

Artigo Java Magazine 73 - Introdu��o ao Terracotta

Um poderoso middleware open source para clustering Primeiros passos com o middleware capaz de armazenar seus objetos da rede de forma transparente, permitindo t�cnicas de alto desempenho e escalabilidade.

Aten��o: esse artigo tem um v�deo complementar. Clique e assista!

Confira outros conte�dos: