Introdu��o ao banco de dados NoSQL Cassandra

Quando um desenvolvedor pensa em um banco de dados imagina como ser� realizar queries e normaliza��o. O tipo de BD NoSQL oferece uma op��o al�m da convencional para armazenar informa��es. Por isso, o objetivo desse artigo � ajudar aquelas pessoas que pretendem utilizar o Cassandra, um tipo de banco NoSQL, fornecendo algumas dicas preciosas.

Saber quando utilizar a tecnologia

Antes de escolher uma tecnologia � muito importante entender bem o seu problema e em seguida entender como a tecnologia escolhida ser� �til em seu projeto. Assim, o Cassandra � um banco NoSQL e interessante quando se precisa de alta disponibilidade e toler�ncia a falhas. Possui uma escalabilidade linear, ou seja, quanto mais n�s em seu datacenter, maior ser� o n�mero de requisi��es por segundo.

O Cassandra n�o � relacional

Tentar simular o SQL dentro do Cassandra n�o � poss�vel, pois ele foi feito em cima de um outro �paradigma� de persist�ncia, o BASE. � muito importante entender que ao tentar realizar emula��es de ACID dentro de um BASE n�o se conseguir� atingir nenhum dos objetivos.

N�o existe normaliza��o no Cassandra

Um erro muito comum � tentar realizar a normaliza��o dentro do Cassandra. Isso n�o funcionar� por conta do paradigma. O fato � que a normaliza��o se tornou muito popular em 1970, quando o armazenamento era muito caro, assim o desafio era conter a informa��o de forma econ�mica e n�o repeti-la. Atualmente o armazenamento est� ficando cada vez mais barato e o desafio mudou: agora � lidar, por exemplo, com um n�mero de requisi��o cada vez maior (na casa dos milh�es, talvez bilh�es).

Hierarquia dentro do Cassandra

A hierarquia dos bancos relacionais segue esse fluxo: banco, tabela e coluna. No Cassandra acontece de forma semelhante, onde no topo temos o KeySpace, fam�lia de colunas e a coluna. Essa, por sua vez, � composta por um bloco com tr�s informa��es: o nome do campo, o seu valor e o timestamp.

No Cassandra n�o existe transa��o

O Cassandra foi feito para trabalhar com uma alta taxa de disponibilidade, desse modo � invi�vel que exista transa��o. � poss�vel enviar v�rios registros em uma mesma fam�lia de colunas ao mesmo tempo. Para saber qual vers�o � a mais recente ele utiliza o timestamp existente no campo, j� que no momento que � inserido um campo ele recebe o timestamp daquele momento.

N�vel de Consist�ncia

O Cassandra trabalha em cima da replica��o da informa��o para ter sua caracter�stica tolerante a falhas. Ao criar um keyspace setta, o fator de r�plica � quem define a quantidade de n�s na qual a informa��o ser� duplicada. Ap�s isso, toda requisi��o, tanto escrita quanto leitura, � feita em cima do fator de r�plica.

Ao enviar uma informa��o para o Cassandra � importante entender a diferen�a entre disponibilidade e consist�ncia. Se ao realizar uma requisi��o for definido uma consist�ncia alta, por exemplo, o ALL - que � o n�mero de fator de r�plica definido no momento da cria��o/altera��o do keyspace - o processo s� ser� finalizado quando enviar para todos os n�s definido. Diferente de um n�vel baixo, como o ONE, que enviar� a solicita��o para apenas um n�, deixando os outros n�s prontos para trabalharem em outras requisi��es, realizando a r�plica em background, elevando assim o n�vel de disponibilidade.

N�o existe relacionamento

Uma boa pr�tica para usar o Cassandra � desnormalizando sua base: desse modo, n�o existem relacionamentos. Se, por exemplo, voc� tem duas tabelas (pessoa e endere�o) em uma rela��o um para um, no Cassandra o mais correto seria uma fam�lia de colunas contendo as duas informa��es (mesmo que existam duas que tenham o mesmo endere�o e replique a informa��o).

Busque informa��es pela chave

O uso de um campo auto-increment como chave no Banco de dados deve ser evitado, pois dentro do Cassandra, por padr�o, o �nico campo no qual se pode buscar informa��es � a chave. Caso voc� queria adicionar mais campos �busc�veis� basta defini-los como �ndice, mas isso n�o � bom por quest�o de performance. No caso de uma tabela pessoa, a chave poderia ser o cpf ou o nickname.

O �nico campo obrigat�rio � a chave

No Cassandra o �nico campo obrigat�rio � a chave, desse modo, podem existir registros com 10, 20, 100, ou nenhuma coluna, desde que o mesmo possua uma chave. Os campos s�o criados por demanda, por exemplo, se um registro n�o tiver o campo �telefone� o mesmo n�o existir�, diferentemente de um banco relacional, em que a coluna existe para todos os registros com o valor null.

N�o existe Constraints

O constraints, muito utilizados para regras dos seus dados, n�o existem dentro do Cassandra. Pode parecer estranho para alguns, mas atualmente tal recurso se torna desnecess�rio. N�o � muito comum, por exemplo, colocar para o usu�rio a mesma mensagem de erro que o banco retornou, como o: �there is no unique constraint matching given keys for referenced table "tec_configurations"� ou �null value in column "pessoa_nome" violates not-null constraint� e sim �nickname j� cadastrado� e �campo nome obrigat�rio�. Outro exemplo � no caso de inser��o da mesma informa��o duas vezes com um insert: vai funcionar normalmente, j� que a informa��o � apenas colocada l� e caso ela j� exista, ser� sobrescrita.

Views materializadas

Em alguns momentos precisamos realizar c�lculos em uma aplica��o (somat�rio, m�dia, etc.). Imaginando um sistema que mede a temperatura de uma determinada cidade e os sensores enviam informa��o a cada milissegundo pode-se deixar essa informa��o pr�-processada em uma fam�lia de colunas, muito semelhante as view materializadas nos bancos relacionais. Esse recurso � muito utilizado e � muito comum, mas o ideal � que sua modelagem seja feita de acordo com sua busca. No caso do sistema de temperatura podemos ter uma fam�lia de colunas para m�dia por dia, m�s e ano, a fim de acompanhar o hist�rico das temperaturas em uma cidade.

Sua aplica��o tamb�m precisa escalar

N�o adianta ter um banco escal�vel preparado para receber mil requisi��es por segundo, se sua aplica��o envia apenas ua requisi��o por segundo. Desse modo � importante entender que sua aplica��o tamb�m precisa escalar.

Cassandra Query Language

Para facilitar a vida do desenvolvedor existe o Cassandra Query Language (CQL), com o qual podemos criar e modificar estruturas e realizar manipula��es de dados de uma maneira mais tranquila e muito mais f�cil. O interessante � que esse recurso possui uma sintaxe muito semelhante ao SQL. Para executar e verificar os CQLs usamos o DataStax DevCenter, que possui sua interface baseada no framework Eclipse.

Cole��es muitos grandes

Recentemente o banco pode fazer uso de tr�s cole��es: o list (uma lista de informa��es), o set (uma lista sem valor duplicado) e um map (um dicion�rio de dados que possui um valor para uma chave correspondente). Esse recurso � muito interessante e muito utilizado, mas tome cuidado para que essas cole��es n�o sejam muito grandes. O interessante � que ela n�o deve ultrapassar dos 260KB.

Acompanhe seus n�s

� interessante acompanhar a performance e a topologia do seu datacenter. Na configura��o o recomendado � que o commitlog e o sstable estejam em discos diferentes e que esses sejam SSDs. Outra dica importante � ter cuidado com o tamanho do heap, pois na maioria dos casos o padr�o resolver� (� feito um c�lculo de heap baseado em mem�ria dispon�vel). Caso modifique, o recomendado � que n�o ultrapasse os 8GB. Uma solu��o para acompanhar seus n�s � o DataStax OpsCenter.

Assim, conclu�mos esse pequeno artigo em que foram demonstradas algumas dicas inicias para os usu�rios do Cassandra. � muito comum tentar simular o SQL dentro do Cassandra, mas isso tender� a ter consequ�ncias desastrosas. o do Cassandra, tender� a ter consequ�ncias desastrosas.

Links:

http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html

http://www.slideshare.net/mattdennis

http://www.datastax.com/download

http://cassandra.apache.org/doc/cql3/CQL.html