Como usar o Apache Cassandra em aplicações Java EE - Parte 1

Demais posts desta s�rie:
Como usar o Apache Cassandra em aplica��es Java EE � Parte 2

Artigo no estilo: Curso

Por que eu devo ler este artigo:Este artigo ser� �til para profissionais que trabalham com aplica��es Java EE e desejam incorporar ao seu pool de tecnologias um banco de dados NoSQL para lidar com as crescentes demandas por performance: o Apache Cassandra.

O artigo ir� apresentar uma vis�o geral do Apache Cassandra incluindo conceitos chave, modelo de dados, constraints, ferramentas, boas pr�ticas, entre outros. Al�m disso, ir� demonstrar atrav�s da implementa��o de uma aplica��o simples como combinar esse banco de dados com as tecnologias do Java EE, e para isso, ser� utilizado o driver da DataStax, WildFly 9, PrimeFaces 5.3, Cassandra 2.2, al�m de outras tecnologias.

Ao longo das �ltimas d�cadas muitas coisas aconteceram no mundo da tecnologia: mudan�as em linguagens de programa��o, novas arquiteturas, diferentes metodologias de desenvolvimento, entre outros. No entanto, uma coisa permanecia intacta: bancos de dados relacionais eram a escolha padr�o para armazenar dados. Com o crescimento acelerado da Internet e a necessidade cada vez mais comum de manipular altos volumes de dados, isso mudou um pouco. Uma nova tecnologia emergiu e vem se consolidando nos �ltimos anos: s�o os chamados bancos de dados NoSQL.

Um dos principais problemas dos bancos de dados relacionais para lidar com grandes massas de dados � o fato de que sua arquitetura cria dificuldades para que esses bancos rodem em cluster. Dessa forma, quando surge a necessidade de escalar as alternativas normalmente s�o:

� Escalabilidade Vertical: consiste em aumentar os recursos do servidor (mem�ria, CPU, disco e etc.). Al�m de ter um limite m�ximo real, normalmente tem custos proibitivos;

� Sharding: essa t�cnica divide os dados da aplica��o em mais de um servidor, distribuindo melhor a carga. O problema � que traz uma enorme complexidade para a aplica��o, perde as melhores vantagens dos bancos relacionais, como integridade referencial, e continua tendo um ponto �nico de falha;

� Master-Slave: um servidor (Master) recebe todas as escritas e replica para as demais inst�ncias (Slaves), as quais podem atender apenas requisi��es de leitura. Apesar de poder distribuir melhor a carga entre v�rios servidores, continua tendo um ponto �nico de falha e n�o consegue ter escalabilidade nas opera��es de escrita por ter apenas um servidor atendendo esse tipo de requisi��o. Ademais, pode acarretar em custos que inviabilizam sua ado��o.

Por esse motivo os bancos de dados NoSQL v�m se popularizando cada vez mais. Executar em cluster com naturalidade, ter alta disponibilidade, facilidade de rodar na nuvem s�o aspectos comuns nesses novos bancos, pois nasceram justamente para resolver esse tipo de problema. Nesse contexto, o Apache Cassandra se destaca por possuir um modelo arquitetural que proporciona todas essas funcionalidades de uma maneira que minimiza a complexidade existente nesse tipo de ambiente.

Assim, nas pr�ximas se��es este artigo ir� apresentar o Apache Cassandra de maneira mais detalhada, com o intuito de proporcionar ao leitor um embasamento te�rico para o melhor entendimento da tecnologia, bem como ir� demonstrar por meio de um exemplo pr�tico algumas das funcionalidades explicadas. Al�m disso, tamb�m ser� exposta uma abordagem para us�-lo em conjunto com a plataforma Java EE. E para tornar o exemplo mais pr�ximo do nosso dia a dia, outras tecnologias ser�o usadas, como o PrimeFaces e seus novos recursos de responsividade, CDI e DeltaSpike.

Conhecendo o Apache Cassandra

O Cassandra � um banco de dados NoSQL orientado a colunas desenvolvido em Java. Criado pelo Facebook e depois doado para a Funda��o Apache, hoje � reconhecido na ind�stria de software como um banco de dados massivamente escal�vel, de alta disponibilidade, distribu�do, dentre outras caracter�sticas essenciais para suportar volumes de dados colossais, com crescimento exponencial e carga excessiva de requisi��es.

Antes de analisar outros detalhes, a seguir ser�o apresentados alguns conceitos importantes para facilitar o entendimento do restante do artigo:

� Cluster: consiste num grupo de m�quinas (n�s) onde os dados s�o distribu�dos e armazenados. Pode ser composto de um �nico n� (single-node cluster) ou v�rios n�s em diversos data centers. A Figura 1 apresenta um exemplo;

� Data center: uma subdivis�o dos n�s do cluster, os quais est�o ligados para prop�sitos de segrega��o de replica��o e carga. Por exemplo, � poss�vel configurar o Cassandra para replicar dados apenas entre n�s do mesmo data center, o que normalmente envolve menos lat�ncia do que replicar atrav�s de m�ltiplos data centers. N�o se trata necessariamente de um data center f�sico;

� N�: uma m�quina que faz parte do cluster e que consequentemente armazena dados da base;

� Keyspace: tem o conceito similar a um database no PostgreSQL, onde tabelas s�o agrupadas para uma finalidade espec�fica. Normalmente para separar dados de aplica��es diferentes;

� Fam�lia de colunas (Column-Family): nas vers�es mais atuais do Cassandra esse termo foi substitu�do por Tabela. Trata-se de um conjunto de pares chave/valor (nome da coluna/valor da coluna) onde s�o armazenadas as informa��es da base. Pode-se dizer que com o CQL3 (Cassandra Query Language) esse termo ficou obsoleto.

Representa��o de um cluster multi-data center

Figura 1. Representa��o de um cluster multi-data center � Adaptado de DataStax.

CQL � O SQL do Cassandra

O CQL (Cassandra Query Language), como o pr�prio nome j� diz, � a linguagem de consulta para o Cassandra. Atualmente na vers�o 3.3, � a interface prim�ria para estabelecer comunica��o com essa base de dados. Al�m disso, por possuir muitos aspectos similares ao SQL, n�o se restringindo apenas ao nome, o CQL3 facilita bastante o aprendizado de profissionais que est�o habituados a trabalhar com bancos de dados relacionais. Antes do CQL a interface padr�o do Cassandra era a Thrift API (vide BOX 1).

BOX 1. Thrift API

Nos prim�rdios do Cassandra a �nica op��o dispon�vel para consulta era a Thrift API, uma interface baseada no protocolo RPC e que era bastante burocr�tica e dif�cil de entender � primeira vista. Em seguida houve algumas melhoras com o advento do CQL, mas ainda assim muitas caracter�sticas da Thrift API estavam presentes. Somente com o CQL3 o Cassandra p�de ter uma forma de comunica��o mais intuitiva, simples e produtiva.

O CQL3 tamb�m impactou a forma de modelar dados para o Cassandra. Assim, caso voc� esteja interessado em se aprofundar no assunto � importante entender que existe uma fase �pr�-CQL3� e outra �p�s-CQL3�. Isso ir� facilitar os estudos e evitar� confus�o ao aprender dicas e boas pr�ticas diferentes para cada uma dessas fases. Neste artigo, iremos focar no CQL3.

Acessando o CQL

A maneira mais comum de acessar o CQL � atrav�s da ferramenta cqlsh, como pode ser observado na Figura 2. Trata-se de um cliente de linha de comando que vem junto com a instala��o do Cassandra (CASSANDRA_HOME/bin/cqlsh).

Executando comandos CQL

Figura 2. Executando comandos CQL atrav�s do cqlsh.

Caso queira optar por uma ferramenta gr�fica, o DataStax DevCenter � uma �tima op��o (vide Figura 3). Esta ferramenta � baseada no Eclipse e traz algumas views especializadas para o Cassandra:

� View Connections: Espa�o onde voc� pode gerenciar todas as conex�es que criou para algum cluster do Cassandra.

� View Schema: Aqui s�o listados todos os objetos de uma determinada conex�o, o que permite uma visualiza��o hier�rquica da estrutura do banco (keyspace > tabela > coluna);

� View CQL Scripts: Atrav�s dessa view � poss�vel gerenciar scripts CQL: criar, editar, deletar;

� View Results: Exibe o resultado da �ltima consulta executada; e

� Editor CQL: Editor que possibilita escrever e executar comandos CQL, faz destaque de palavras reservadas, tem code completion e ainda possibilita escolher a conex�o onde o comando ser� executado para cada arquivo aberto.

Escolher entre uma ferramenta e outra normalmente � uma quest�o de prefer�ncia. O DevCenter � mais indicado para quem est� iniciando devido a diversas facilidades que uma IDE pode proporcionar, como: wizards para cria��o de conex�es, keyspaces e tabelas, abas para se trabalhar com m�ltiplos servidores, gerenciamento de scripts, destaque de palavras reservadas, entre outros. O cqlsh, por sua vez, � mais utilizado por quem tem familiaridade com a linha de comando e n�o est� muito a fim de abrir uma IDE pesada na sua m�quina. Como facilidade, o cqlsh tem o recurso de tab completion, bastante �til a quem est� acostumado com a �telinha preta�.

Executando comandos CQL atrav�s do DevCenter

abrir imagem em nova janela

Figura 3. Executando comandos CQL atrav�s do DevCenter.

Modelagem � Desnormalizar � preciso

Quando se fala de modelagem de dados em bancos NoSQL, normalmente temos que deixar de lado quase tudo que � considerado boa pr�tica no mundo relacional. No Cassandra n�o � diferente, e mais, v�rias das boas pr�ticas da modelagem relacional s�o consideradas anti-padr�es.

Nesse banco a normaliza��o dos dados � considerada um destruidor de performance. Portanto, quase sempre � melhor desnormalizar para escalar a base. Por isso, n�o se preocupe tanto com a repeti��o dos dados ou com a quantidade maior de escritas que isso provoca. O Cassandra sabe lidar muito bem com essa situa��o.

Outra diferen�a � que nos bancos relacionais o foco da modelagem s�o as tabelas (entidades), onde a partir das mesmas diversos relacionamentos s�o obtidos atrav�s de joins e chaves estrangeiras. J� as boas pr�ticas do Cassandra instruem a guiar sua modelagem baseado nas consultas. Assim, um padr�o recomendado � ter uma tabela por consulta. Por exemplo, se sua aplica��o precisa consultar Usu�rios por nome e por login, ser�o criadas duas tabelas: usuario_por_nome e usuario_por_login, ambas com os mesmos dados (desnormaliza��o).

O problema da normaliza��o e do foco em entidades � que essas t�cnicas acabam distribuindo os dados de forma inadequada, e para um banco como o Cassandra, isso pode significar ter que consultar v�rios n�s do cluster para encontrar a informa��o, o que pode acarretar um grande problema de desempenho. As recomenda��es apresentadas visam minimizar ao m�ximo o acesso a m�ltiplos n�s.

Partition Key

Todas as tabelas do Cassandra precisam definir uma chave denominada Partition Key. Esta tem como principal utilidade determinar em qual n� do cluster um dado ser� armazenado e trata-se de um conceito fundamental a todos que lidam com essa base de dados.

No que se refere � modelagem, a partition key tem rela��o direta com os filtros de uma consulta. Isso porque no Cassandra qualquer query precisa filtrar a tabela no m�nimo pelas colunas que comp�em sua partition key. A l�gica dessa restri��o � que sem a partition key o Cassandra n�o tem como saber em qual n� a informa��o est� armazenada.

Neste ponto vale ressaltar que n�o se deve confundir partition key com primary key. Por exemplo, digamos que uma tabela definiu sua chave prim�ria da seguinte forma:

PRIMARY KEY (user_login, status, book_isbn)

Nesse cen�rio, a primary key � composta pelas colunas user_login, status e book_isbn, enquanto a partition key se resume � primeira coluna, que no caso � user_login. As demais s�o conhecidas como clustering columns.

Clustering Column

Outro importante aspecto do Cassandra s�o as Clustering Columns. Essas colunas fazem parte da primary key, mas n�o da partition key. No exemplo apresentado anteriormente, as colunas status e book_isbn seriam as clustering columns.

A fun��o dessas colunas � determinar a ordena��o pela qual os dados ser�o organizados no disco para uma determinada partition key. � como uma ordena��o padr�o. Assim, no exemplo supracitado, uma vez que a tabela foi filtrada pela coluna user_login (partition key), os dados apresentados estar�o ordenados pelas colunas status e book_isbn, mesmo que n�o se use um ORDER BY. Essa ordena��o padr�o ainda pode ser definida na cria��o da tabela como ASC ou DESC para cada uma das clustering columns. Como essa ordena��o j� � garantida no momento de armazenar a informa��o no disco, existe um enorme ganho de desempenho, pois o banco de dados n�o precisa fazer isso em mem�ria para cada consulta.

Vale informar que o Cassandra s� aceita ordena��o (ORDER BY) baseado nas clustering columns. Deste modo, a ordena��o dos dados para uma consulta pode modificar a forma como modelamos as tabelas. Isto porque o nosso objetivo deve ser executar o SELECT sem precisar especificar uma cl�usula ORDER BY e mesmo assim sempre obter os dados na ordem desejada.

Outra maneira que as clustering columns podem afetar a modelagem � que essa ordena��o padr�o tamb�m ir� trazer �tima performance nos filtros por intervalos, por exemplo, um per�odo de data. Assim, se voc� perceber que sua consulta ir� precisar desse tipo de filtragem, � fundamental escolher bem as clustering columns.

Distribui��o � A chave para a escalabilidade horizontal

Um dos pontos fortes do Cassandra � a sua arquitetura distribu�da com suporte a diversas configura��es e tamanhos de cluster, desde um �nico n� a at� centenas de n�s, como acontece em algumas empresas como eBay, Netflix e Apple.

Essa distribui��o � feita de forma autom�tica, n�o necessitando que desenvolvedores e arquitetos se preocupem em implementar algum tipo de sharding via aplica��o. Um componente conhecido como partitioner � o respons�vel por essa tarefa.

Um partitioner basicamente � uma fun��o que gera um token (hash) a partir da partition key e ent�o distribui os dados entre os n�s do cluster baseado nesse token de maneira uniforme e transparente para o desenvolvedor. Em outras palavras, cada n� � respons�vel por um range compreendido pelo token.

O Cassandra oferece algumas op��es de particionadores, sendo o Murmur3Partitioner a op��o padr�o e mais recomendada. Esse particionador gera tokens de 64 bits que englobam um range de -263 a 263-1. Para mais detalhes, acesse Apache Cassandra Product Guide (veja o endere�o na se��o Links).

Exemplo de distribui��o de dados

Para exemplificar o funcionamento do mecanismo de distribui��o de dados, vamos supor que exista uma tabela chamada pessoas_por_nome, que tem como partition key o campo Nome. Dessa forma, essa coluna ser� usada pelo particionador para gerar os hashes sempre que uma nova linha for inserida na tabela. Para ilustrar melhor essa situa��o, apresentamos na Tabela 1 alguns valores para a coluna Nome e os seus respectivos hashes, que foram gerados por um partitioner hipot�tico.

Partition Key	Hash
Jos�	-2245462676723223822
Maria	7723358927203680754
Jo�o	-6723372854036780875
Isabel	1168604627387940318

Tabela 1. Partition keys e seus respectivos hashes.

Agora, imagine que o cluster dessa aplica��o � composto por quatro m�quinas, como exemplificado na Figura 4, e que cada um dos n�s � respons�vel por armazenar os dados de um determinado range do hash gerado pelo partitioner. Por exemplo, nesse cluster o n� C armazenar� as linhas que tenham um hash de 0 a 46116860118427387903.

N�s do cluster e seus respectivos ranges

Figura 4. N�s do cluster e seus respectivos ranges - Adaptado de: DataStax.

Considerando o conjunto de dados da Tabela 1 sendo inseridos num cluster com a configura��o da Figura 4, ter�amos uma distribui��o dos dados conforme a Tabela 2. Assim, a linha que tem a coluna Nome igual a Jo�o seria armazenada pelo n� A, pois o partitioner gerou um hash para essa partition key o qual fica dentro do intervalo da m�quina A.

N�	In�cio range	Fim range	Partition Key	Hash
A	-9223372036854775808	-4611686018427387903	Jo�o	-6723372854036780875
B	-4611686018427387904	-1	Jos�	-2245462676723223822
C	0	4611686018427387903	Isabel	1168604627387940318
D	4611686018427387904	9223372036854775807	Maria	7723358927 ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Por Marlon Em 2016

Acelere seus resultados com o Prime.

Plano Start

12x R$89,00

Saiba mais

Plano Prime

12x R$199,00

Saiba mais

Plano Prime +

12x R$299,00

Saiba mais

Escolha seu Plano	Plano Start	Plano Prime	Plano Prime +
Forma��o completa Programador
Uso de IAs e automa��es
Exerc�cios gamificados
Projetos pr�ticos
Suporte ao conte�do
Comunidade de alunos
Cursos e artigos em +40 tecnologias
Trilha Monetize seu conhecimento
Mentoria T�cnica personalizada
Mentoria fazendo $ em 60 dias
Mentoria Primeiro emprego
Suporte humanizado 24 horas
Aulas exclusivas com especialistas
Mentorias mensais		2 por m�s	ilimitada
Tempo de assinatura	12 meses	12 meses	12 meses
	Saiba mais	Saiba mais	Saiba mais

Quero tirar uma d�vida

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Como usar o Apache Cassandra em aplica��es Java EE - Parte 1

Veja nesse artigo como tirar proveito dessas tecnologias trabalhando em conjunto.

Confira outros conte�dos:

<Perguntas frequentes>

Por onde devo iniciar os estudos?

Em quanto tempo vou me tornar um programador?

Eu preciso de um diploma de faculdade para come�ar a atuar como programador?

Por que a programa��o se tornou a profiss�o mais promissora da atualidade?

Quais s�o os principais diferenciais da DevMedia?

O que eu irei aprender estudando pela DevMedia?

Quais as vantagens de aprender programa��o atrav�s da linguagem JavaScript?

A plataforma oferece certificados?

A plataforma tem suporte ao aluno, como funciona?

A DevMedia me forma como programador Full Stack?

Tem hor�rio para as aulas?

Por que a DevMedia n�o usa videoaulas em sua did�tica?

Preciso de um computador espec�fico para estudar na DevMedia?

Eu consigo estudar pelo celular?

A DevMedia tem aplicativo?

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

Quais s�o os planos de assinatura dispon�veis?

Adquirindo o plano, terei acesso a todo o conte�do?

A plataforma tem planos vital�cios?

A DevMedia tem fidelidade?

Como funciona o cancelamento?

Como excluir meus dados da plataforma?