Conhe�a a gera��o de banco de dados NoSQL e NewSQL

Hoje as informaç�es s�o vitais para as organizaç�es, que possuem v�rias fontes de dados e sistemas para armazen�-los. Por�m, com a utilizaç�o de bancos de dados relacionais e a normalizaç�o, que tem como princ�pio a consist�ncia dos dados, h� um grande problema que retarda a gravaç�o e recuperaç�o, pois a cada dia que passa o n�mero de dados inseridos nesses bancos � cada vez maior, deixando a an�lise dos dados cada vez pior.

Com a evoluç�o da Web 2.0, a proliferaç�o das redes sociais e a intensa interaç�o com os usu�rios, a cada dia mais e mais dados s�o inseridos e, recuper�-los para an�lise em alta velocidade � quase imposs�vel, j� que os mesmos n�o d�o esse suporte. Por isso, o NoSQL foi projetado especialmente para arquiteturas distribu�das e com os conceitos da n�o normalizaç�o e a n�o utilizaç�o de uma uma linguagem de consulta, como o SQL. Mas com a sua utilizaç�o desenfreada alguns problemas foram enfrentados, tais como falta do uso de transaç�es, a falta das consultas SQL e a estrutura complexa por falta de uma boa modelagem. Isso deu abertura a nova proposta: o NewSQL. Esse foi projetado para estender os benef�cios do modelo relacional para arquiteturas distribu�das e melhorar o desempenho dos bancos de dados SQL, n�o sendo mais necess�rio aumentar a capacidade dos servidores, fazendo o uso da escalabilidade horizontal. Nesse artigo ser�o apresentadas as principais caracter�sticas dos bancos de dados NoSQL e NewSQL e o uso no atual cen�rio.

NoSQL

As principais caracter�sticas dos bancos de dados NoSQL � a escalabilidade horizontal baseada em uma arquitetura do tipo mem�ria distribu�da com replicaç�o e fragmentaç�o dos dados em diferentes servidores (CATTELL, 2010), permitindo suportar um grande n�mero de operaç�es de I/O (Input /Output) por segundo. A maioria desses bancos n�o fornecem suporte �s propriedades transacionais ACID para conseguirem um desempenho e uma escalabilidade maior. Os SGBD NoSQL operam sobre a relaç�o desempenho e complexidade do modelo, tendendo sempre a aumentar a primeira. CATTELL (2010) defini seis das caracter�sticas mais importantes dos bancos de dados NoSQL:

Aumento de desempenho de operaç�es simples quando do aumento do n�mero de n�s;
Replicaç�o e distribuiç�o de dados em diferentes n�s;
No lugar do SQL, um protocolo simples de comunicaç�o com o SGBD;
Um modelo de controle de concorr�ncia mais �relaxado� do que os utilizados nos SGBDR tradicionais, chamados consist�ncia tardia;
Uma distribuiç�o eficiente dos �ndices e utilizaç�o de mem�ria RAM para armazenamento de dados;
Adiç�o din�mica de atributos aos registros j� existentes na base (pela n�o-obrigaç�o de ter esquemas fixos).

Os bancos de dados NoSQL chegaram ao mercado como uma alternativa para atender �s necessidades das aplicaç�es que os SGBD tradicionais tinham dificuldade em suprir, devido aos problemas de escalabilidade e disponibilidade. No entanto, estas soluç�es j� enfrentam alguns problemas (LEAVITT, 2010), pois n�o possuem uma linguagem unificada de consulta, como o SQL, e necessitam de uma programaç�o manual das consultas, o que pode n�o ser uma tarefa vi�vel para aqueles que n�o sabem codificar essas soluç�es. Al�m disso, ao longo dos anos foi investido muito em algoritmos e formas de aprimorar compiladores SQL para gerar planos de execuç�o de consultas otimizadas, assim, ao desenvolver novos m�todos de acesso, perde-se esta experi�ncia. E como o NoSQL d� suporte apenas a consist�ncia tardia de dados para aplicaç�es cuja exatid�o dos dados � cr�tica, n�o ter garantias de consist�ncia pode ser um grande problema. Os bancos de dados NoSQL podem ser classificados em diferentes tipos, de acordo com o uso apropriado do banco para uma determinada tarefa. Eles podem ser classificados como:

Pares Chave-Valor: Sistema que armazena valores indexados para posterior recuperaç�o atrav�s de chaves;
Orientados � Coluna: Diferentemente dos SGBD que armazenam as informaç�es em tabelas fortemente estruturadas em linhas e colunas, esse tipo de sistema cont�m uma tabela extens�vel de dados minimamente relacionados. Cada linha desta tabela pode possuir um conjunto pr�prio de colunas, que n�o precisa ser igual aos das demais. A escalabilidade � feita atrav�s da distribuiç�o das linhas e colunas pelos n�s, fragmentando inicialmente as colunas de uma tabela e depois fragmentando as linhas dessas tabelas resultantes pela chave prim�ria, com fragmentaç�o por intervalo;
Bancos de dados de grafos: Est�o diretamente relacionados a modelos de dados a grafos, tendo como ideia representar os dados como estruturas que generalizem a noç�o de grafos. Este modelo � proposto para quando a topologia dos dados � mais importante;
Orientados a documentos: Segundo Anderson (2009), esses bancos de dados utilizam o conceito de dados e documentos autocontidos e autodescritivos. Isso implica que o documento em si j� define como ele deve ser apresentado e sua estrutura define como devem ser armazenados.

NewSQL

Os bancos de dados NewSQL buscam promover a mesma melhoria de desempenho e escalabilidade dos sistemas NoSQL, n�o abrindo m�o dos benef�cios dos bancos de dados tradicionais, da linguagem SQL e das propriedades ACID. Mike Stonebreaker, fundador do VoltDB (um dos bancos de dados desse novo modelo), destacou a vantagem dos bancos de dados NewSQL por proporcionarem consultas em tempo real, al�m de maior capacidade de processamento. Segundo Mike, h� um custo grande em n�o usar SQL, sendo exigido trabalho excessivo dos desenvolvedores para compensar sua aus�ncia.

Diferente dos SGBD tradicionais, que eram considerados soluç�es para qualquer tipo de aplicaç�o, os NewSQL utilizam uma estrat�gia diferente, onde cada novo sistema desenvolvido visa atender a uma necessidade espec�fica do mercado e busca alcanç�-lo de forma separada, terminando com o antigo conceito de ter um �nico sistema que sirva para qualquer tipo de aplicaç�o, fazendo com que os bancos de dados sejam especialistas para um prop�sito, n�o gerando mais um n�mero absurdo de funç�es e comportamentos desnecess�rios para uma determinada aplicaç�o. STONEBRAKER e CATTEL (2011) definem cinco caracter�sticas de um SGBD NewSQL:

Linguagem SQL como meio de interaç�o entre o SGBD e a aplicaç�o;
Suporte para transaç�es ACID;
Controle de concorr�ncia n�o bloqueante, para que as leituras e escritas n�o causem conflitos entre si;
Arquitetura que forneça um maior desempenho por n� de processamento;
Arquitetura escal�vel, com mem�ria distribu�da e com capacidade de funcionar em um aglomerado com um grande n�mero de n�s.

Na Tabela 1 temos um comparativo das caracter�sticas dos bancos de dados relacionais (RDBMS), NoSQL, e NewSQL, com suas capacidades e pontos fortes.

Caracter�stica	RDBMS	NoSQL	NewSQL
Cumprimento ACID (dados, integridade de transaç�es)	Sim	N�o	Sim
OLAP / OLTP	Sim	N�o	Sim
A an�lise dos dados (agregados, transformar, etc.)	Sim	N�o	Sim
Rigidez do esquema (mapeamento rigoroso da modelo)	Sim	N�o	Talvez
Flexibilidade formato de dados	N�o	Sim	Talvez
A computaç�o distribu�da	Sim	Sim	Sim
Escala para cima (vertical) / Dimensionar (horizontal)	Sim	Sim	Sim
Desempenho com crescimento de dados	R�pido	R�pido	Muito R�pido
Sobrecarga de desempenho	Enorme	Moderado	M�nimo
Popularidade / Suporte comunidade	Enorme	Crescente	Crescendo lentamente

Tabela 1. Comparativo entre RDBMS, NoSQL e NewSQL

A partir dessa tabela podemos observar que o NewSQL � um aprimoramento do RDBMS utilizando o melhor dos dois mundos. Ele manteve totalmente as caracter�sticas dos bancos de dados padr�es, implementando as inovaç�es do NoSQL. Nos itens em que se encontram "Talvez" � porque depende do Banco NewSQL que estamos utilizando, pois como vimos, cada banco tem um prop�sito espec�fico. Existem alguns bancos NoSQL especialistas com o poder do NewSQL, como � o caso do MariaDB (Desenvolvido pelo criador do MySQL).

Big Data e sua relaç�o com os bancos de dados NoSQL e NewSQL

As aplicaç�es Big Data originaram-se com a chegada da Web 2.0, evoluindo com grande velocidade, e tem como proposta dar ao usu�rio informaç�es �teis de forma r�pida ou permitindo que a empresa tome boas decis�es no n�vel de neg�cios.

Com a utilizaç�o dessas aplicaç�es por gigantes da internet, como Google, Facebook e Youtube, tornou ainda mais popular o conceito de BigData, sendo considerada pela equipe da Gartner umas das tecnologias que ter�o maior import�ncia na modernizaç�o da gest�o da informaç�o com fortes impactos na infraestrutura da informaç�o e governança das empresas. Segundo a Gartner, o Big Data suporta soluç�es de processamento para uma variedade de dados novos e j� existentes, trazendo benef�cios reais para os neg�cios. Ainda assim, o processamento do volume e variedade de dados continuam sendo soluç�es t�cnicas, a menos que sejam parte das metas de neg�cio.

O aspecto essencial do Big Data n�o � a habilidade t�cnica de processamento de dados, mas os benef�cios que podem ser alcançados por uma organizaç�o utilizando suas an�lises.

O problema que os dados hoje s�o gerados de v�rias maneiras, gerando uma grande massa de dados para an�lise, dando origem ao problema com os bancos de dados relacionais pela n�o capacidade de processar tanta informaç�o com alta disponibilidade, otimizaç�o e escalabilidade. Com isso, a necessidade de sistemas de bancos de dados mais eficientes para estas tarefas, motivando a utilizaç�o dos bancos de dados NoSQL e NewSQL.

A velocidade da disponibilizaç�o das informaç�es � essencial para a tomada de decis�es, j� que uma informaç�o tardia n�o tem utilidade, por isso os cinco "Vs" do Big Data (Volume, Velocidade, Variedade, Veracidade e Valor).

A necessidade de sistemas de bancos de dados mais eficientes para estas tarefas motivou a utilizaç�o dos bancos de dados NoSQL e NewSQL. Os bancos NoSQL tiveram um crescente aumento com � difus�o dos Big Data, chegando algumas empresas a desenvolverem bancos internos para atender inicialmente demandas da pr�pria empresa, onde acabaram se tornando um produto, como o caso do Big Table e Dynamo, desenvolvidos para solucionar problemas com larga escala que sofriam no momento.

Outra coisa interessante � que os bancos NoSQL e os NewSQL s�o concebidos e evolu�dos como soluç�es para os problemas enfrentados pelo Big Data. Como s�o poucas as empresas que sofrem com problemas de larga escala como as gigantes, o que impulsiona de fato as melhorias nos bancos de dados � o uso de soluç�es anal�ticas como BI, Data Warehouse, ferramentas de ETL e de cubos.

Alguns bancos de dados NoSQL e NewSQL

NoSQL

Aerospike: Banco de dados NoSQL que oferece uma vantagem de velocidade de mem�ria, atraindo empresas de an�ncios de alta escala e aquelas que precisam de tempos de resposta em milissegundo. Aerospike est� apostando em novas categorias, incluindo jogos, e-commerce e segurança, onde a baixa lat�ncia � tudo.
Apache Cassandra: Os pontos fortes s�o a modelagem de dados NoSQL e escalabilidade linear flex�vel em hardware commoditypor conta do uso de cluster.
Amazon DynamoDB: foi desenvolvido pela Amazon para incrementar o seu pr�prio neg�cio e-commerce em r�pido crescimento, tendo seus serviços altamente escal�veis. Inspirou o Cassandra, Riak, e outros projetos NoSQL no processo.
MongoDB: � o banco de dados mais popular NoSQL, com mais de sete milh�es de downloads e centenas de milhares de implantaç�es. Sua popularidade se deve � facilidade de desenvolvimento e manejo flex�vel dos dados. Muito utilizado em aplicaç�es de redes sociais web e m�vel.
HBase: � o banco de dados que roda em cima do HDFS (Hadoop Distributed File System � sistema de arquivos distribu�do projetado para rodar em hardware commodity), por isso d� aos usu�rios a capacidade �nica de trabalhar diretamente com os dados armazenados no Hadoop. As caracter�sticas incluem grande escalabilidade.

NewSQL

MemSQL: Como o pr�prio nome sugere, � operado em mem�ria, e � um sistema de banco de dados de alta escala por sua combinaç�o de desempenho e compatibilidade com o SQL transacional e ACID na mem�ria, adicionando uma interface relacional em uma camada de dados in-memory.
VoltDB: Projetado por v�rios pesquisadores de sistema de banco de dados bem conhecidos, esse banco oferece a velocidade e a alta escalabilidade dos bancos de dados NoSQL, mas com garantias ACID, e sua lat�ncia em milissegundo e integraç�o com Hadoop.
SQLFire: Servidor de banco de dados NewSQL da VMware, desenvolvido para escalar em plataformas nas nuvens e tomar as vantagens de infraestrutura virtualizadas.
MariaDB: foi desenvolvido pelo criador do MySQL e � totalmente compat�vel com o MySQL. Tamb�m pode interagir com os bancos de dados NoSQL, como Cassandra e LevelDB.

Algumas Comparaç�es entre bancos

Em um recente Benchmark foi visto que n�o s� a velocidade na recuperaç�o dos dados � sentida ao utilizar um banco de dados NewSQL ou NoSQL comparado ao um banco de dados tradicional, mas outros fatores como espaço de armazenamento em disco.

Um Benchmark publicado em blog.altoros.com, mostra um situaç�o onde um n�mero maior de registros foi inserido em uma base NewSQL e o espaço utilizado veio a ser menor que em um sistema tradicional: ao utilizar um banco de dados MySQL com a inserç�o de 234.238.440 registros, o espaço em disco utilizado foi de 210 GB com uma transfer�ncia de aproximadamente 28.000 a 18.000 transaç�es por segundo, contra 276.934.863 registros inseridos no TokuDB com um espaço em disco de apenas 50 GB e uma transfer�ncia de 14.000 transaç�es por segundos.

Se formos analisar veremos que o n�mero de operaç�es feitas pelo MySQL � maior, mas elas foram caindo com o tempo j� o TokuDB se manteve est�vel, operando por mais de cinco horas contra apenas tr�s do MySQL que, por problemas, derrubou o servidor. Em uma segunda comparaç�o entre os bancos de dados MemSQL e o PostgreSQL foi visto que a recuperaç�o de dados � mais r�pida, onde o PostgreSQL demorou 14,312 milissegundos para processar 6.850 consultas contra 6,635 milissegundos por 6.850 consultas do MemSQL. Em uma terceira comparaç�o entre MySQL e MonetDB em uma estrutura de Data Warehouse com um fator contendo 150.970 registros e tr�s dimens�es, o MySQL demorou 5.647 sec para retornar 42 registros na primeira execuç�o antes da montagem do plano, e 1.529 sec em m�dia nas demais execuç�es ap�s o plano de acesso. J� o MonoNet recuperou essas mesmas informaç�es com 0.341 sec em todas as consultas efetuadas.

Com esse pequeno comparativo podemos observar o qu�o poderoso s�o essas novas geraç�es de banco de dados.

O neg�cio tamb�m deve estar modelado para as novas tecnologias, caso contr�rio, n�o tem como a mesma fazer milagre e otimizar uma consulta se a estrutura dos dados n�o funciona. Precisamos conhecer o banco e o seu prop�sito: listamos v�rios bancos e cada qual com uma caracter�stica distinta.

Um exemplo de adaptaç�o de projeto � o Twitter, onde ap�s o grande aumento do n�mero de dados, trocou seu banco de dados do MySQL para um NoSQL e no final teve que retornar para o MySQL devido ao NoSQL n�o atender suas necessidades.

Referencias

Stonebraker, M. (2010). SQL databases v. NoSQL databases. Communications of the ACM

NoSQL vs. NewSQL: Escolhendo a ferramenta certa}
http://voltdb.com/blog/nosql-vs-newsql-choosing-right-tool

Prestando atenç�o no NoSQL e NewSQL Databases
http://www.informationweek.com/big-data/big-data-analytics/16-nosql-newsql-databases-to-watch/d/d-id/1269559

O que � realmente novo no NewSQL
http://nwds.cs.washington.edu/files/nwds/pdf/newsql2013-uw.pdf