Apache Cassandra: Modelando os dados de sua aplica��o NoSQL

Por que eu devo ler este artigo:O Apache Cassandra � um dos melhores bancos de dados de arquitetura distribu�da, principalmente para projetos de Big Data, nos quais se espera alta disponibilidade, escalabilidade linear e capacidade de operar em m�ltiplos centros de processamento simultaneamente, como um �nico reposit�rio de dados.

Devido a essas caracter�sticas, esta solu��o NoSQL est� sendo adotada cada vez mais em sistemas de escala global, que requerem uma distribui��o geogr�fica em v�rias localidades. Entre esses sistemas, est�o os de processamento de transa��es online de larga escala, como ocorre com a loja virtual da Amazon.

Os tradicionais bancos de dados relacionais n�o lidam t�o bem com os requisitos de sistemas dessa magnitude. Apesar disso, no exterior, assim como no Brasil, o Cassandra n�o � t�o popular quanto os bancos relacionais, mas tem sido reconhecido como um banco promissor, capaz de ocupar um espa�o que as solu��es padr�o n�o atendem com excel�ncia. Sabendo disso, vamos explorar esse assunto neste artigo, abordando primeiramente um ponto fundamental: a modelagem de dados para o Cassandra.

Atualmente, grande parte dos sistemas j� opera atrav�s da Internet. Como consequ�ncia disso, eleva-se a quantidade potencial de usu�rios e passa-se a expor as limita��es das tecnologias tradicionais.

Em muitos casos essa exposi��o se deu pelo fato dos sistemas terem apresentado um crescimento bastante elevado do n�mero de acessos, o que culminou em um aumento exponencial do volume de dados a tal ponto que os bancos relacionais passaram a ter dificuldades em processar as requisi��es com um tempo de resposta satisfat�rio.

A solu��o, ent�o, seria escalar o banco de dados verticalmente, adicionando mais recursos de hardware numa mesma m�quina, de forma a garantir um desempenho aceit�vel para o sistema.

Entretanto, os custos com isso podem se tornar proibitivos, assim como em algum momento o limite dessa escalabilidade pode ser alcan�ado. Diante disso, os bancos de dados relacionais se tornaram um gargalo na arquitetura desses sistemas.

Essas limita��es fizeram com que os pesquisadores buscassem alternativas para melhorar o desempenho e, a partir da�, criaram op��es de replica��o de dados dos bancos relacionais em v�rios n�s (mestre-escravo, mestre-mestre) e os particionamentos vertical e horizontal.

Dessa forma, foi criada a possibilidade de se escalar horizontalmente um banco de dados relacional. Entretanto, os pesquisadores notaram que para grandes volumes de dados, o custo de se manter uma estrutura de hardware para escalar horizontalmente de forma satisfat�ria era proibitivo.

Esse elevado custo se dava por conta das caracter�sticas ACID (Atomicidade, Consist�ncia, Integridade e Disponibilidade) do banco de dados. Para garantir essas propriedades, o banco terminava por fazer pesquisas em todos os n�s do cluster de dados a fim de realizar as opera��es de JOIN, precisava fazer leituras (muitas vezes em v�rios n�s) antes de escrever ou atualizar os dados, entre outros detalhes.

Todo esse comportamento levou a um custo muito alto para se realizar consultas, aumentando o tempo das mesmas de tal forma que se tornaram invi�veis. Nesse momento, neg�cios que necessitavam de respostas r�pidas, principalmente os de opera��es cr�ticas, come�aram a sofrer com essas dificuldades e tiveram que buscar alternativas.

A op��o que se encontrou foi baseada no teorema de CAP, o qual conceitua que � imposs�vel, para um sistema distribu�do, garantir as caracter�sticas de consist�ncia (s� existe um �nico valor em todo o cluster para um mesmo registro), disponibilidade (� poss�vel executar opera��es com sucesso a qualquer momento/tempo razo�vel) e toler�ncia a falhas (sistema continua a operar mesmo se um n� tiver falha de rede).

Portanto, s� � poss�vel construir sistemas distribu�dos que atendam a no m�ximo duas das caracter�sticas do teorema de CAP, sendo necess�rio, portanto, flexibilizar as regras de armazenamento de dados em troca de maior escalabilidade e performance.

Esse conceito � v�lido at� mesmo para os bancos de dados relacionais, quando se opta por escal�-los horizontalmente, pois se houver falha de rede em algum n�, algumas consultas podem n�o ser executadas.

Obviamente, com o aumento do volume de dados, se faz necess�rio escalonar horizontalmente, a fim de aumentar a capacidade de processamento e armazenamento, diminuir custos (n�s simples em vez de m�quinas poderosas) e aumentar a disponibilidade.

Essa necessidade fez com que surgissem os bancos de dados NoSQL, como o Cassandra, o qual faz uso do conceito de consist�ncia eventual, garantindo apenas a disponibilidade e toler�ncia a falhas.

A consist�ncia eventual significa que se nenhuma atuali ...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO

Desbloqueie toda a DevMedia

+2000 artigos e v�deos
+40 trilhas sobre Front-end, Back-end, IA e muito mais
+5000 exerc�cios pr�ticos
Mentorias ao vivo individuais

at� 50% OFF

A partir de

R$ 69 /m�s

// 25 ANOS FORMANDO PROGRAMADORES

APRENDA A

PROGRAMAR DE VERDADE

Um caminho claro do zero ao avan�ado, com pr�tica de verdade.

Voc� constr�i projetos reais desde o come�o e sai sabendo programar sozinho, sem copiar c�digo de professor.

Forma��es completas

+40 Projetos

+5000 exerc�cios

+40 Tecnologias

Mentorias individuais

Suporte com IA

Comunidade de alunos

QUERO COME�AR AGORA

Confira outros conte�dos:

Por Jos� Em 2016

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Unimed Medico

Excelente artigo e muito bem explicado.

há +1 ano

Moderacao Devmedia

Show Unimed ;) Valeu pelo elogio
Abra�os

há +1 ano

Apache Cassandra: Modelando os dados de sua aplica��o NoSQL

Aprenda nesse artigo como organizar os dados de suas aplica��es Java para persist�ncia no Apache Cassandra

Desbloqueie toda a DevMedia

Confira outros conte�dos: