Apache Cassandra: Modelando os dados de sua aplicação NoSQL

Por que eu devo ler este artigo:O Apache Cassandra � um dos melhores bancos de dados de arquitetura distribu�da, principalmente para projetos de Big Data, nos quais se espera alta disponibilidade, escalabilidade linear e capacidade de operar em m�ltiplos centros de processamento simultaneamente, como um �nico reposit�rio de dados.

Devido a essas caracter�sticas, esta solu��o NoSQL est� sendo adotada cada vez mais em sistemas de escala global, que requerem uma distribui��o geogr�fica em v�rias localidades. Entre esses sistemas, est�o os de processamento de transa��es online de larga escala, como ocorre com a loja virtual da Amazon.

Os tradicionais bancos de dados relacionais n�o lidam t�o bem com os requisitos de sistemas dessa magnitude. Apesar disso, no exterior, assim como no Brasil, o Cassandra n�o � t�o popular quanto os bancos relacionais, mas tem sido reconhecido como um banco promissor, capaz de ocupar um espa�o que as solu��es padr�o n�o atendem com excel�ncia. Sabendo disso, vamos explorar esse assunto neste artigo, abordando primeiramente um ponto fundamental: a modelagem de dados para o Cassandra.

Atualmente, grande parte dos sistemas j� opera atrav�s da Internet. Como consequ�ncia disso, eleva-se a quantidade potencial de usu�rios e passa-se a expor as limita��es das tecnologias tradicionais.

Em muitos casos essa exposi��o se deu pelo fato dos sistemas terem apresentado um crescimento bastante elevado do n�mero de acessos, o que culminou em um aumento exponencial do volume de dados a tal ponto que os bancos relacionais passaram a ter dificuldades em processar as requisi��es com um tempo de resposta satisfat�rio.

A solu��o, ent�o, seria escalar o banco de dados verticalmente, adicionando mais recursos de hardware numa mesma m�quina, de forma a garantir um desempenho aceit�vel para o sistema.

Entretanto, os custos com isso podem se tornar proibitivos, assim como em algum momento o limite dessa escalabilidade pode ser alcan�ado. Diante disso, os bancos de dados relacionais se tornaram um gargalo na arquitetura desses sistemas.

Essas limita��es fizeram com que os pesquisadores buscassem alternativas para melhorar o desempenho e, a partir da�, criaram op��es de replica��o de dados dos bancos relacionais em v�rios n�s (mestre-escravo, mestre-mestre) e os particionamentos vertical e horizontal.

Dessa forma, foi criada a possibilidade de se escalar horizontalmente um banco de dados relacional. Entretanto, os pesquisadores notaram que para grandes volumes de dados, o custo de se manter uma estrutura de hardware para escalar horizontalmente de forma satisfat�ria era proibitivo.

Esse elevado custo se dava por conta das caracter�sticas ACID (Atomicidade, Consist�ncia, Integridade e Disponibilidade) do banco de dados. Para garantir essas propriedades, o banco terminava por fazer pesquisas em todos os n�s do cluster de dados a fim de realizar as opera��es de JOIN, precisava fazer leituras (muitas vezes em v�rios n�s) antes de escrever ou atualizar os dados, entre outros detalhes.

Todo esse comportamento levou a um custo muito alto para se realizar consultas, aumentando o tempo das mesmas de tal forma que se tornaram invi�veis. Nesse momento, neg�cios que necessitavam de respostas r�pidas, principalmente os de opera��es cr�ticas, come�aram a sofrer com essas dificuldades e tiveram que buscar alternativas.

A op��o que se encontrou foi baseada no teorema de CAP, o qual conceitua que � imposs�vel, para um sistema distribu�do, garantir as caracter�sticas de consist�ncia (s� existe um �nico valor em todo o cluster para um mesmo registro), disponibilidade (� poss�vel executar opera��es com sucesso a qualquer momento/tempo razo�vel) e toler�ncia a falhas (sistema continua a operar mesmo se um n� tiver falha de rede).

Portanto, s� � poss�vel construir sistemas distribu�dos que atendam a no m�ximo duas das caracter�sticas do teorema de CAP, sendo necess�rio, portanto, flexibilizar as regras de armazenamento de dados em troca de maior escalabilidade e performance.

Esse conceito � v�lido at� mesmo para os bancos de dados relacionais, quando se opta por escal�-los horizontalmente, pois se houver falha de rede em algum n�, algumas consultas podem n�o ser executadas.

Obviamente, com o aumento do volume de dados, se faz necess�rio escalonar horizontalmente, a fim de aumentar a capacidade de processamento e armazenamento, diminuir custos (n�s simples em vez de m�quinas poderosas) e aumentar a disponibilidade.

Essa necessidade fez com que surgissem os bancos de dados NoSQL, como o Cassandra, o qual faz uso do conceito de consist�ncia eventual, garantindo apenas a disponibilidade e toler�ncia a falhas.

A consist�ncia eventual significa que se nenhuma atualiza��o for feita a um registro a partir de determinado momento, eventualmente, ou seja, quando todas as atualiza��es anteriores tiverem sido replicadas em todos os n�s do cluster, todos os acessos �quele registro retornar�o o valor mais atualizado.

O problema � que antes que o dado mais atualizado esteja dispon�vel em todos os n�s do cluster de dados, n�o necessariamente o valor retornado a uma consulta ser� o mais atualizado, pois a replica��o dos dados demora um certo tempo para ocorrer, criando uma janela de inconsist�ncia.

Por exemplo, se um cluster Cassandra possui tr�s n�s e houver uma atualiza��o em um registro trocando a letra �A� por �B�, enquanto o valor B n�o for atualizado em todos os n�s, uma consulta pode consultar um n� em que o valor ainda seja �A� (a escolha do n� � aleat�ria), pois a replica��o n�o terminou, ocasionando uma inconsist�ncia.

O Cassandra possui formas de contornar essa limita��o ao possibilitar a configura��o do n�vel de consist�ncia. Entretanto, n�o chega a garantir a consist�ncia, como nos sistemas relacionais.

Dessa forma, esta solu��o NoSQL � a melhor op��o para situa��es em que se tenha um grande volume de dados, necessite de alta disponibilidade, toler�ncia a falhas e que n�o seja necess�rio trabalhar sempre com o dado mais recente.

Um bom exemplo de aplica��o que pode tirar proveito dessa caracter�stica � o carrinho de compras da Amazon. O modelo de neg�cio da empresa assume que � melhor pedir desculpa ao usu�rio por um eventual erro, no caso de qualquer inconsist�ncia (nos dados, compra efetuada de forma errada, falha na compra, etc.), do que arcar com os custos de garantir a consist�ncia com um banco de dados relacional.

Quando ocorre esse tipo de situa��o, a empresa pede desculpas e oferece uma s�rie de vantagens ao cliente, como bons descontos em produtos ou cr�ditos para serem gastos na loja. Dessa forma, al�m de incentivar uma nova compra, a empresa tem o custo de opera��o diminu�do significativamente ao adotar essa estrat�gia. O �custo� dos incentivos aos clientes que passaram pelo problema � dilu�do pelo maior volume de compras que o sistema pode lidar.

Al�m disso, existem v�rios casos de sucesso da utiliza��o do Cassandra, em v�rios ramos de neg�cio, como, por exemplo: cat�logo de produtos, redes sociais, detec��o de fraudes e aplica��es anal�ticas no geral. Devido a isso, tem sido adotado por milhares de empresas de diferentes �reas, como a Amazon (com�rcio eletr�nico), eBay (com�rcio eletr�nico), Netflix (servi�o de assinatura de filmes e s�ries de TV), Facebook (rede social), CERN (centro de pesquisa nuclear), FedEx (log�stica), Globo.com (portal de not�cias), Microsoft (software), Credit Suisse (banco de investimento) e at� mesmo a NASA (ag�ncia espacial estadunidense).

Como era de se esperar, o Cassandra n�o foi escolhido por acaso. Ele � altamente escal�vel, possui uma arquitetura P2P tolerante a falhas, um modelo de dados vers�til e flex�vel e uma linguagem de consulta com baixa curva de aprendizado. Todas essas caracter�sticas fazem com que o Cassandra seja o reposit�rio perfeito para aplica��es que precisam estar sempre dispon�veis e que operam com grandes volumes de escrita e leitura de dados. Com esta solu��o NoSQL � poss�vel atender a milh�es de transa��es por segundo, em grandes volumes de dados, fazendo uso de milhares de servidores.

No entanto, um dos grandes desafios que novos projetos encontram ao adotar o Apache Cassandra � que a modelagem de dados � bem diferente. As abordagens tradicionais se baseiam em bancos relacionais e j� possuem uma metodologia bem estabelecida, fruto de d�cadas de pesquisas.

Por sua vez, por ter uma abordagem diferente e recente, existem poucas metodologias para a modelagem de dados n�o-relacionais. A primeira tentativa e a mais utilizada at� o momento, foi criada por tr�s pesquisadores da Wayne State University, entre os quais se destaca Artem Chebotko, arquiteto de solu��es da DataStax, uma empresa de software que fornece uma vers�o comercial do Apache Cassandra. Essa abordagem que ser� demonstrada ao longo deste artigo.

O processo de modelagem relacional � bastante focado nos dados, pois procura entender e organizar os dados de forma relacionada, de tal forma a minimizar a redund�ncia e duplica��o dos mesmos. Al�m disso, as consultas feitas ao banco de dados, a princ�pio, n�o interferem no processo de modelagem, ou seja, n�o se modela pensando nas consultas que a aplica��o deseja fazer.

Durante esse processo, a an�lise e otimiza��o de consultas � uma atividade muitas vezes n�o executada, uma vez que se tem uma linguagem podero ...

Quer ler esse conteúdo completo? Tenha acesso completo

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Jos� Em 2016

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Unimed Medico

N�vel 0

Excelente artigo e muito bem explicado.

há +1 ano

Moderacao Devmedia

N�vel 0

Show Unimed ;) Valeu pelo elogio
Abra�os

há +1 ano

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Apache Cassandra: Modelando os dados de sua aplica��o NoSQL

Aprenda nesse artigo como organizar os dados de suas aplica��es Java para persist�ncia no Apache Cassandra