O Que � NoSQL?

Por que eu devo ler este artigo:Uso de novas ferramentas e conceitos relacionados ao armazenamento de dados. Neste artigo � apresentado o noSQL, um movimento que engloba diversas ferramentas de armazenamento de dados n�o relacionais.

Ferramentas noSQL fornecem meios mais eficientes de armazenamento de grandes volumes de dados e/ou mecanismos de pesquisa de baixa lat�ncia, fatores importantes que precisam ser considerados durante a escolha de uma solu��o de armazenamento de dados.

Bancos de dados relacionais nem sempre s�o a melhor op��o em cen�rios onde � necess�rio armazenar estruturas din�micas, tratar grandes volumes de dados ou lidar com estruturas n�o convencionais como grafos. Em contrapartida, as tecnologias noSQL oferecem diversas maneiras de tratar estes pontos, inclusive, de forma a trabalhar em conjunto com bancos de dados relacionais.

noSQL � um movimento que promove solu��es de armazenamento de dados n�o relacionais. Ele � composto por diversas ferramentas que, de forma particular e espec�fica, resolvem problemas como tratamento de grandes volumes de dados, execu��o de consultas com baixa lat�ncia e modelos flex�veis de armazenamento de dados, como documentos XML ou JSON.

As tecnologias noSQL n�o t�m como objetivo substituir os bancos de dados relacionais, mas apenas propor algumas solu��es que em determinados cen�rios s�o mais adequadas. Desta forma, � poss�vel trabalhar com tecnologias noSQL e banco de dados relacionais dentro de uma mesma aplica��o.

O termo noSQL � bastante abrangente, pois envolve diversas ferramentas, tecnologias, estruturas de dados e arquiteturas. Esta nova buzzword representa muito mais um movimento, ou uma nova escola de pensamento, do que alguma tecnologia em particular.

Escrever sobre este tema n�o � uma tarefa simples, pois al�m desta abrang�ncia, � necess�rio lidar com dois pontos antag�nicos: de um lado a desconfian�a e o ceticismo sobre algo novo, do outro a excita��o gerada por uma nova tecnologia.

Esta � a primeira parte de uma s�rie de tr�s artigos sobre noSQL, que ir�o apresentar, de forma consciente, clara e objetiva, o que de fato � noSQL. Neste artigo, ser� apresentado o conte�do te�rico, abordando os temas: hist�ria, modelos de dados alternativos ao relacional e arquitetura. Esta parte te�rica � de extrema import�ncia para compreens�o do movimento como um todo, e fundamental para entender e nortear as escolhas das ferramentas classificadas como noSQL.

Um pouco de hist�ria

Antes de falar sobre noSQL, vamos entender um pouco da hist�ria dos sistemas de gerenciamento de dados desde seu surgimento at� o aparecimento deste movimento chamado noSQL. Esta vis�o hist�rica � importante porque, como escreveu o fil�sofo George Santayana, �aqueles que n�o podem lembrar o passado, est�o condenados a repeti-lo�.

Nos �ltimos 30 anos temos vivido a �ditadura� do modelo relacional, por�m, � importante lembrar que os primeiros sistemas de gerenciamento de bancos de dados (ou SGBDs) n�o eram baseados em estruturas relacionais, e sim hier�rquicas (IMS-DB, final dos anos 1960) ou baseados em grafo (CODASYL � anos 1970). O modelo relacional s� seria apresentado por �Ted� Codd no in�cio dos anos 1970 e realmente adotado apenas no final dos anos 1980.

Entretanto, ap�s o modelo relacional ter se estabelecido, e sido largamente adotado, poucas iniciativas tentaram propor um modelo alternativo, e as poucas alternativas que surgiram n�o tiveram muito sucesso (como os bancos de dados orientados a objeto ou bancos xml).

Um ponto interessante e comum a cada nova proposta de modelos alternativos (isso desde o in�cio, l� nos anos 1960) � a tentativa de invalidar e substituir por completo o modelo dominante, isso at� agora...

O movimento noSQL

O movimento noSQL teve sua origem em junho de 2009, para nomear um encontro promovido por Johan Oskarsson e Eric Evans, que teve como objetivo discutir o crescente surgimento de solu��es open source de armazenamento de dados distribu�dos n�o relacionais. Em outubro do mesmo ano, foi realizada a confer�ncia �no:sql(east)�, que redefiniu o uso do termo noSQL para descrever solu��es de armazenamento de dados n�o relacionais.

Podemos considerar noSQL como uma nova onda de SGBDs, pois prop�e algumas alternativas ao modelo relacional, por�m com uma grande diferen�a hist�rica: o movimento noSQL n�o tem como objetivo invalidar ou promover a total substitui��o do modelo relacional, e sim o fim do modelo relacional como bala de prata, como a �nica solu��o correta ou v�lida. Inclusive, � importante entender que noSQL n�o significa �no SQL� (n�o ao SQL), mas sim �not only SQL� (n�o s� SQL).

Com isso, temos, pela primeira vez na hist�ria, uma nova onda surgindo sem o objetivo de substituir por completo o modelo atual (relacional).

Nota: Ao que tudo indica o termo noSQL foi criado em 1998 por Carlo Strozzi para nomear seu projeto open source, que tinha como objetivo ser uma implementa��o mais leve de um banco de dados relacional, por�m sua principal caracter�stica era n�o expor a interface SQL.

Portanto � bem ir�nico usar o termo noSQL, criado para nomear um banco de dados relacional, para classificar solu��es de armazenamento de dados n�o relacionais.

Ap�s esta importante vis�o hist�rica, iremos agora nos aprofundar nas caracter�sticas das solu��es chamadas noSQL. Esta explora��o ser� dividida em duas �reas distintas, por�m complementares: Modelos de Dados e Caracter�sticas de Arquitetura. Vamos iniciar esta explora��o pelos modelos alternativos ao relacional, pois esta � a porta de entrada para compreender melhor as propostas destas ferramentas noSQL.

Modelos de Dados Alternativos

Estamos habituados com o modelo relacional que � composto basicamente por tabelas, colunas e linhas, e que tem como principais caracter�sticas a integridade dos dados e a necessidade de modelar toda estrutura antes de seu uso (conhecido como schema-first).

Com o modelo relacional conseguimos, quase que naturalmente, modelar qualquer necessidade de armazenamento de dados, entretanto o modelo relacional nem sempre � o mais adequado para certas necessidades, como por exemplo: �rvores (estrutura hier�rquica) ou estruturas din�micas.

Atualmente, no universo de ferramentas noSQL, se destacam quatro diferentes tipos de modelos de dados: Chave-Valor, Orientado a Documento, Fam�lia de Colunas (ou clone de BigTable) e Grafo.

Nas pr�ximas se��es iremos explorar cada um destes modelos em detalhe, iniciando pelo mais simples, mas n�o menos poderoso: chave-valor.

Chave-Valor

A estrutura de dados do modelo chave-valor � muito parecida com a estrutura do java.util.Map, onde podemos armazenar uma chave e seu valor. Esse valor pode ser qualquer informa��o, ou seja, um blob.

Algumas ferramentas mais sofisticadas, como o Redis (que veremos mais adiante), al�m do blob permite armazenar como valor outras estruturas de dados, por exemplo: Listas Map<String, List<?>>, Sets Map<String, Set<?>> e at� mesmo Hashes Map<String, HashMap<String, ?>>.

Uma caracter�stica importante do modelo chave-valor � que voc� pode pesquisar um dado apenas pela chave. Esta condi��o obriga o programador a elaborar muito bem suas chaves. Em contrapartida se obt�m um comportamento O(1) no acesso aos dados, que na pr�tica significa uma execu��o praticamente linear independente do volume de dados.

Nota: Blob - Forma de armazenamento de dados sem uma estrutura definida que permite armazenar um grande volume de dados.

Documento

Antes de falar sobre o modelo em si, � importante entender o que � um documento. O documento � uma estrutura de dados composta por uma quantidade vari�vel de campos, com tipos de dados diversos, inclusive um campo pode conter um outro documento (chamado de sub documento). Muito complicado, muito abstrato? Simplificando: pense em um arquivo XML ou JSON como um documento, simples n�o?

Este modelo permite armazenar qualquer documento, sem ter a necessidade de definir previamente sua estrutura. Documentos podem ser armazenados em conjunto mesmo que n�o tenham nada em comum; este esquema � conhecido como schema-free. Outra caracter�stica do modelo de documento � a tend�ncia de desnormaliza��o dos dados, deixando em um s� documento (ou �registro�) todas as informa��es relacionadas � inclusive as ferramentas que suportam este tipo de modelo s�o otimizadas justamente para isso.

Um exemplo de um modelo orientado a documento � a estrutura de um sistema de blog, onde em um �nico documento voc� pode (e deve) agrupar o post e seus coment�rios, veja o exemplo na Listagem 1.


  blog: {
    posts: {
      post: [ {
        id : 1,
        nome : 'Meu Primeiro Post!',
        texto : 'Aqui o conte�do do meu post....',
        comentarios : {
          [ {
            id : 1,
            usuario : 'Anonym',
            texto : 'Muito Legal O post!'
          }, {
            id : 2,
            usuario : 'Anonym',
            texto : '#fail!'
          } ]
        }
      }, {
        id : 2,
        nome : 'Meu segundo post!',
        texto : 'Aqui.... o conte�do deste meu segundo post....',
        comentarios : {
          {
            id : 1,
            usuario : 'Anonym',
            texto : 'n�o gostei deste texto.'
          }
        }
      } ]
    }
  }

Listagem 1. Exemplo de Documento no formato JSON

Fam�lia de Colunas

O modelo de fam�lia de colunas se tornou popular atrav�s do paper BigTable do Google (publicado em 2006), com o objetivo de montar um sistema de armazenamento de dados distribu�do, projetado para ter alta escalabilidade e suportar um grande volume de dados.

Este modelo � composto basicamente por tr�s componentes: Keyspaces, Fam�lias de Colunas e Colunas, organizados conforme a Figura 1.

**Figura 1**. Estrutura do modelo de fam�lia de colunas

O Keyspace tem como fun��o agrupar um conjunto de Fam�lias de Colunas. Este componente tem um papel parecido com um Database do modelo relacional.

J� o componente Fam�lia de Colunas tem uma estrutura mais pr�xima de uma tabela do modelo relacional, onde os dados s�o armazenados em linhas e organizados em colunas. Entretanto, as semelhan�as param por a�, pois este componente tem suas pr�prias caracter�sticas, como o uso de uma chave �nica para identifica��o de cada linha e a quantidade vari�vel de colunas, que traz flexibilidade ao modelo sem poluir as linhas com colunas nulas. A Listagem 2 mostra um exemplo, em formato JSON, de como os dados s�o organizados em uma fam�lia de colunas.


  Usu�rios = { // Usu�rios � o nome da Fam�lia de Colunas
    porcelli: [ // porcelli � a chave desta linha
      // colunas
      {coluna: "nome",    dados: [{timestamp: 123456789, valor: "Alexandre Porcelli"}]}, 
      {coluna: "email",   dados: [{timestamp: 123456789, valor: "porcelli@porcelli.com.br"}]}, 
      {coluna: "twitter", dados: [{timestamp: 123456789, valor: "@porcelli" }]}
    ],
    zezinho : [ // zezinho � a chave desta linha
      // colunas
      {coluna: "user",  dados: [{timestamp: 123456789, valor: "zezinho"}]}, 
      {coluna: "email", dados: [{timestamp: 123456789, valor: "zezinho88@gmail.com"}]}, 
      {coluna: "idade", dados: [{timestamp: 123456789, valor: "22" }]}, 
      {coluna: "sexo",  dados: [{timestamp: 123456789, valor: "masculino"}]} 
    ]
  }

Listagem 2. Exemplo de uma Fam�lia de Colunas utilizando o formato JSON

Por fim, temos a Coluna, que � uma tupla composta por nome, timestamp e valor, onde os dados s�o realmente armazenados. O elemento timestamp permite que uma �nica coluna armazene diversos valores, adicionando uma outra dimens�o aos dados, como podemos ver no exemplo da Listagem 3.


{ // Esta coluna armazena todas as vers�es (hist�rico) de uma p�gina html
  coluna: "conteudo_html",
  dados: [
    {timestamp: 123456789, valor: "<html><body><h1>Hello World
    </h1></html></body>"},
    {timestamp: 234567890, valor: "<html><body><h1>Good bye
    </h1></html></body>"},
    {timestamp: 345678901, valor: "<html><body><h1>Cruel World
    </h1></html></body>"}
  ]
}

Listagem 3. Exemplo de Coluna utilizando o formato JSON

Existem algumas varia��es do modelo de fam�lia de colunas, como por exemplo, a ferramenta Cassandra, que adiciona o componente Super-Coluna. A Super-Coluna � uma coluna especial que cont�m sub colunas, como mostra a Listagem 4.


  { // Super-Coluna
    nome: "endere�o",
    // lista de Colunas
    valor: {
      // note que as chaves de acesso s�o os nomes das pr�prias colunas
      rua:    {coluna: "rua",    dados:[{timestamp: 123456789, valor: "rua xx 1234, ap 14 a"}]},
      cidade: {coluna: "cidade", dados:[{timestamp: 123456789, valor: "s�o paulo"}]},
      cep:    {coluna: "cep",    dados:[{timestamp: 123456789, valor: "05729-124"}]}
    }
  }

Listagem 4. Exemplo de Super-Coluna

Duas caracter�sticas adicionais e importantes deste modelo s�o a forma de consulta, que pode ser executada apenas atrav�s da chave das linhas de uma fam�lia de colunas, e a necessidade de definir previamente o conjunto de colunas que podem ser armazenadas em cada fam�lia.

O cen�rio t�pico de uso deste modelo est� relacionado com a necessidade de lidar com grandes volumes de dados que precisam ser consultados com um tempo de resposta muito baixo, bem como a necessidade de armazenar uma estrutura de dados complexa (fam�lias compostas por diversas colunas). Alguns cases reais deste modelo s�o as aplica��es Google Docs e Google Analytics, que utilizam o BigTable, e o Digg e Reddit, que utilizam o Cassandra.

Grafo

A melhor descri��o sobre o modelo de grafos � de Marko Rodriguez (arquiteto de sistemas de grafo da AT&T Interactive): �Grafo � uma estrutura de dados que conecta um conjunto de v�rtices atrav�s de um conjunto de arestas. Os bancos de dados de grafo modernos suportam estruturas de grafo multi-relacionais, onde existem tipos diferentes de v�rtices (representando pessoas, lugares, itens) e diferentes tipos de arestas (como por exemplo amigo de, mora em, comprado por)[...]�.

Este � o modelo mais natural de representar dados, inclusive � conhecido como um modelo whiteboar d friendly (amigo do quadro-branco), pois conseguimos criar dados da mesma forma que desenhamos elementos e os conectamos atrav�s de linhas (com ou sem setas) em um quadro branco.

O exemplo mais comum utilizado para apresentar o modelo de grafo � a estrutura de dados de uma rede social, onde pessoas (que s�o representadas por v�rtices) conhecem ou seguem outras pessoas (os relacionamentos ser�o representados por arestas do tipo Conhece ou Segue). A Figura 2 mostra um exemplo de uma rede social entre alguns personagens do filme Matrix.

Exemplo de Grafo de uma rede
social — **Figura 2**. Exemplo de Grafo de uma rede social

Uma das caracter�sticas mais importantes deste modelo � a capacidade de navegar entre os relacionamentos (chamada de traverse) de forma linear � com comportamento O(1). A opera��o de traverse permite �descobrir dados escondidos� como: pessoas mais influentes em uma rede social, produtos mais comprados por determinado perfil, etc.

Depois desta introdu��o aos principais modelos de dados propostos pelos noSQL, iremos agora explorar algumas caracter�sticas de arquitetura destas solu��es.

Arquitetura

Um dos pontos mais discutidos em torno do movimento noSQL � sem d�vida a parte arquitetural. No entanto, antes de aprofundar o tema arquitetura, � importante entender e refletir um pouco sobre como temos tratado o armazenamento de dados nos �ltimos tempos.

Como temos tratado nossos dados

No in�cio, n�s programadores Java, t�nhamos apenas um recurso para acessar bases de dados, o JDBC � uma API padr�o que nos permitia acessar qualquer banco de dados que disponibilizasse um driver (padr�o jdbc). Mas quem programou usando JDBC puro sabe o qu�o trabalhoso era (a API faz uso extensivo de Checked Exceptions, o que torna o c�digo bastante polu�do).

A �salva��o� veio com o surgimento de ferramentas de mapeamento objeto-relacional, chamadas de ORMs (object-relational mapping), que se popularizou gra�as ao Hibernate, e por consequ�ncia desta populariza��o, acabou influenciando na cria��o de uma API padr�o de persist�ncia, a JPA. Al�m de melhorar o nosso c�digo, removendo muito c�digo de infraestrutura, a JPA nos permitiu mapear POJOs (Plain Old Java Object) atrav�s de algumas anota��es (ou, para o pessoal mais antigo, atrav�s de um arquivo XML).

As tecnologias de ORM trouxeram um ganho significativo de produtividade, contudo, para utilizar da melhor forma essa tecnologia, tivemos que abrir m�o de algumas caracter�sticas do modelo relacional. Um exemplo disso � o banimento das chaves compostas (ou at� mesmo as chaves naturais) em favor do uso de chaves artificiais. Do ponto de vista do desenvolvimento, faz todo sentido utilizar chaves artificiais (pois usar chaves compostas d� um trabalho muito grande quando usamos um ORM). Entretanto, quando come�amos a propor isso aos ADs e DBAs, de cara foi recha�ado, pois est�vamos �rasgando� o modelo relacional (lembre-se que os bancos de dados relacionais, al�m da parte relacional, s�o caracterizados pela integridade dos dados, e chaves compostas naturalmente for�am esta integridade). Ap�s severas discuss�es, os desenvolvedores acabaram �ganhando�, pois conseguiram provar que seriam mais produtivos, e os DBAs e ADs tamb�m n�o sa�ram perdendo, pois poderiam criar constraints para implementar as regras de integridade.

Nota: Constraint - Recurso que permite adicionar uma regra a um ou mais atributos de uma tabela de um banco de dados relacional.

Dessa forma, manipular dados ficou muito simples, praticamente uma receita de bolo a ser seguida, o que nos levou a n�o nos preocupar mais com isso. No entanto, hoje vivemos a era do Big Data, onde um grande volume de dados � gerado a todo instante, e a manipula��o deste volume come�a a se transformar em um gargalo nos sistemas atuais. E devido � padroniza��o do acesso aos dados atrav�s de ferramentas de ORM, acabamos nivelando a utiliza��o dos recursos dos bancos de dados pelo menor denominador comum (at� em favor de uma suposta �facilidade� de migrar de um fornecedor para outro, o que no final das contas quase nunca acontece), e este menor denominador comum, � claro, n�o inclui opera��es espec�ficas para melhoria de performance ou a cria��o de padr�es de acesso diferenciados.

O objetivo deste texto foi de apenas convidar voc� a refletir sobre como temos tratado o armazenamento de dados como um cidad�o de segunda classe. E se existe um ponto a ser ressaltado com a buzzword noSQL, este ponto �: trazer o armazenamento de dados para o primeiro plano novamente, tratando o tema como um cidad�o de primeira classe que exerce um papel fundamental na arquitetura de nossas aplica��es.

Agora voc� deve estar se perguntando: por que � t�o importante conhecer as principais caracter�sticas de arquitetura destas ferramentas noSQL? Para atingir certos objetivos, tais como, baixa lat�ncia, alta performance, escalabilidade ou um pouco de tudo isso, algumas ferramentas chamadas de noSQL tiveram que fazer escolhas de arquitetura nada ortodoxas, como por exemplo, abrir m�o das propriedades ACID.

Nas pr�ximas se��es, vamos explorar algumas das principais caracter�sticas de arquitetura que devem ser analisadas quando avaliamos qualquer solu��o de armazenamento de dados, inclusive bancos de dados relacionais. Pois at� bancos de dados relacionais t�m caracter�sticas particulares; veja o caso do MySQL, ao utilizar o MyISAM (que ainda � o mais utilizado) voc� n�o ter� uma solu��o totalmente ACID.

ACID vs BASE

Primeiro vamos deixar claro que as propriedades ACID (Atomicidade, Consist�ncia, Isolamento e Durabilidade) s�o importantes, e todas as solu��es de armazenamento de dados adorariam implement�-las, mas isso nem sempre � poss�vel.

Implementar todas estas propriedades em uma solu��o distribu�da e/ou de baixa lat�ncia � bastante complicado. Como mencionado anteriormente, at� mesmo alguns bancos de dados relacionais n�o suportam todas as propriedades ACID em busca de performance e at� mesmo simplifica��o de arquitetura. Existem diversos estudos sendo realizados em busca de equacionar estes pontos, por�m ainda muito incipientes.

Ent�o qual seria a alternativa ao ACID? Uma das propostas � o BASE (Basically Available, Soft-state, Eventual consistency), termo criado por Dan Pritchett que de forma elegante conseguiu jogar com as palavras e montar uma sigla para contrapor o termo ACID, gerando uma compara��o entre �cido vs. B�sico.

Antes de falar sobre BASE, � importante entender a tradu��o do termo Eventual Consistency. Eventual � um falso cognato, ou seja, tem uma grafia similar em portugu�s por�m com um significado diferente. Em ingl�s, eventual significa que ir� ocorrer em algum momento, j� em portugu�s eventual significa que pode ou n�o ocorrer. A melhor tradu��o para o termo Eventual Consistency que conhe�o � �Consist�ncia em Momento Indeterminado�, feita por Maur�cio De Diana.

Agora, depois de entender melhor o sentido de eventual consistency, vamos retornar ao BASE. A ideia principal � abrir m�o da consist�ncia em favor da disponibilidade e escalabilidade. Entenda que abrir m�o de consist�ncia n�o quer dizer que seus dados estar�o sempre inconsistentes, significa apenas que seus dados podem ficar inconsistentes por um pequeno per�odo de tempo. Este per�odo � relativo e depende de como sua aplica��o foi desenvolvida e configurada, por�m na maior parte do tempo o dado estar� em estado consistente.

O sistema financeiro � repleto de situa��es onde BASE � utilizado. Um bom exemplo para entender o estado de inconsist�ncia tempor�rio � atrav�s da opera��o de transfer�ncia de valores entre bancos (DOCs ou TEDs). No momento da transfer�ncia o valor � debitado na conta do cliente que est� enviando, por�m este valor ainda n�o est� na conta destino. At� o banco destino confirmar (ou recusar) a opera��o, o valor transferido n�o est� em local algum e a conta do cliente que efetuou a opera��o est� em um estado inconsistente. Ap�s a confirma��o (ou recusa) da opera��o do banco destino, os dados retornam ao estado consistente.

Em resumo, em sistemas ACID o dado � modificado de estado consistente para consistente a cada opera��o, j� no BASE os dados est�o em estado de fluxo, isto �, em constante modifica��o.

Para finalizar, vamos deixar claro que existem ferramentas noSQL com propriedades ACID, um exemplo � o Neo4j.

Modelo de Persist�ncia

Grande parte dos bancos de dados relacionais atuais tem como meio de persist�ncia principal o disco, o que, em conjunto com logs e outras t�cnicas, s�o capazes de oferecer garantia de durabilidade dos dados (ou seja, uma vez os dados commitados eles se tornam permanentes). Este � o modelo tradicional. Entretanto, � importante lembrar que o acesso ao disco tem um custo muito alto de IO. Solu��es que necessitam de baixa lat�ncia em geral n�o se adequam a este meio de persist�ncia.

Apesar disso, existem algumas t�cnicas que visam minimizar o custo de IO com o disco. Uma delas � a utiliza��o de arquivos memory-mapped, ou seja, um meio de mapear uma parte da mem�ria diretamente a um arquivo do disco, ent�o, uma vez criado este mapeamento, as opera��es executadas na mem�ria s�o refletidas no arquivo. Esta t�cnica aumenta significativamente a velocidade de acesso aos dados, entretanto seu uso acarreta alguns problemas. O principal deles � o risco de perda de dados que pode ser causado por uma corrup��o no arquivo, ocasionado por um crash na m�quina (ex: falta de energia). Ferramentas que utilizam esta t�cnica aconselham replicar os dados em mais de uma m�quina, para diminuir o risco de perda de dados.

Mas o disco n�o � o �nico local onde podemos alocar dados. A mem�ria � um local quase perfeito para �armazenar� dados. Com ela conseguimos obter o menor n�vel de lat�ncia, e nos dias atuais n�o � dif�cil encontrar servidores com 32GB ou at� mesmo 64GB de mem�ria � para algumas aplica��es esta quantidade de mem�ria � suficiente para alocar praticamente todo o banco de dados. Algumas ferramentas noSQL utilizam a mem�ria como seu principal meio de �persist�ncia�, utilizando o disco como uma forma secund�ria, fazendo serializa��o em disco atrav�s de uma thread paralela.

Infelizmente a mem�ria � vol�til, ou seja, se a m�quina for desligada, ou at� mesmo se ocorrer uma falha na aplica��o e ela for finalizada, voc� perder� todos os dados. Por outro lado, tenha em mente que o ambiente computacional atual (seja em datacenters privados ou em grandes estruturas de cloud computing) � capaz de gerar um uptime de m�quina pr�ximo de 99,999%.

Como podemos observar, cada meio de persist�ncia tem vantagens e desvantagens. � nossa obriga��o, desenvolvedores e arquitetos, escolher o modelo que melhor atende �s necessidades de nossas aplica��es.

Padr�o de Manipula��o de Dados

No mundo relacional estamos acostumados a utilizar comandos SQL (insert, delete, update e select) para a manipula��o dos dados, por�m quando falamos de noSQL, como voc� pode imaginar, esta interface n�o existe. Ent�o como manipular dados? Atrav�s de APIs! Em geral as APIs destas ferramentas s�o bem simples de usar, apesar de n�o existir nenhum padr�o entre elas. Portanto, ao adotar qualquer ferramenta noSQL tenha em mente que voc� ir� abrir m�o de qualquer tipo de padroniza��o, mesmo entre ferramentas que tratam o mesmo tipo de modelo de dados.

Outro ponto relevante a ser compreendido � o modelo de busca dos dados. Grande parte das ferramentas noSQL permitem apenas a busca de dados por uma �nica chave ou atrav�s de views previamente definidas � s�o raras as ferramentas que permitem criar consultas ricas ad-hoc.

Ainda sobre padr�es de manipula��o de dados, � importante entender qual � o perfil de sua aplica��o em termos de intensidade de leitura e/ou escrita. Esta compreens�o poder� facilitar ou nortear a escolha da melhor ferramenta.

Modelo de Distribui��o

Para manter um ambiente de alta disponibilidade n�o podemos confiar apenas em uptime e simplesmente delegar esta atividade � equipe respons�vel pela infraestrutura. Como desenvolvedores temos que criar uma arquitetura onde n�o exista um �nico ponto de falha, que seja capaz de mitigar os riscos de uma aplica��o ficar fora do ar. Para isso existem algumas t�cnicas, e uma das mais comuns � a distribui��o e replica��o dos dados em mais de uma m�quina (dependendo das necessidades de SLA de sua aplica��o, isso pode envolver diferentes data centers distribu�dos em diversas localiza��es geogr�ficas).

Para implantar este cen�rio � fundamental entender quais s�o os recursos que sua ferramenta de armazenamento de dados disponibiliza, tais como replica��o master/slave ou at� master/master. Contudo, al�m de conhecer e utilizar um processo de distribui��o e replica��o, tamb�m � fundamental conhecer seu comportamento em caso de falha de alguma m�quina (seja ela a master ou a slave).

Compreender como se d� todo o processo de recovering � muito importante, pois tudo funciona muito bem na documenta��o ou em exemplos dispon�veis em posts na web. Por�m, na vida real � um �pouco� diferente, e a melhor forma de saber como efetivamente todo este processo ocorre � atrav�s de testes reais e benchmarks, de prefer�ncia com os dados de sua aplica��o, para comprovar o funcionamento de cada ferramenta no seu ambiente.

Existem ainda ferramentas que oferecem o particionamento autom�tico dos dados, que nada mais � do que a capacidade de dividir e distribuir os dados de uma grande base para bases menores em diversas m�quinas.

Nota: Particionamento de Dados - T�cnica bastante popular para obter escalabilidade horizontal em bancos de dados relacionais. Particionar dados consiste em dividir um grande banco de dados em bancos de dados menores independentes. Para esta divis�o � utilizado algum fator, por exemplo, a letra inicial do nome do usu�rio. Assim, usu�rios iniciados em A at� D ficam no servidor 1, usu�rios de E at� K no servidor 2 e assim por diante.

Um dos problemas desta t�cnica em modelos relacionais � a necessidade de deixar de usar chaves estrangeiras em determinados relacionamentos, o que pode levar a base a um estado inconsistente. Em bancos n�o relacionais como chave-valor, documento ou fam�lia de colunas, esta t�cnica n�o tem impactos negativos, uma vez que n�o existe relacionamento no modelo.

J� para o caso do modelo de grafo, aplicar esta t�cnica n�o � nada f�cil, pois os n�s e links s�o criados de forma din�mica e altamente acoplados, tornando o particionamento de dados uma tarefa muito complicada.

Escalabilidade e Elasticidade

Quando precisamos tratar grandes volumes de dados (o chamado Big Data), precisamos ter a capacidade de criar clusters n�o s� para nossos servidores de aplica��o, mas tamb�m para as nossas ferramentas de armazenamento de dados.

Apesar de grande parte das ferramentas de bancos de dados relacionais oferecer algum mecanismo de escalabilidade horizontal, o modelo relacional se comporta melhor em um modelo de escalabilidade vertical. Em contrapartida, algumas ferramentas noSQL t�m seu comportamento planejado para trabalhar de forma mais otimizada em escala horizontal (exemplo: Cassandra).

Outro ponto importante quando falamos de escalabilidade horizontal (ou cluster) � sua elasticidade, ou seja, a capacidade de adicionar, de forma �transparente�, novas m�quinas ao sistema � preferencialmente sem a necessidade de reinici�-lo (exemplo: Riak).

Claro que existem outros fatores que devem ser considerados quando adotamos uma tecnologia, tais como: maturidade, cases de sucesso, estabilidade e, principalmente, a capacidade da equipe de absorver esta tecnologia.

Nota: Escalabilidade Vertical e Horizontal - A escalabilidade vertical consiste em adicionar mais poder de processamento, mem�ria ou disco em uma m�quina, j� a escalabilidade horizontal � a capacidade de adicionar novas m�quinas para, de forma distribu�da, aumentar os recursos de processamento, mem�ria e disco.

Em favor da escalabilidade vertical tem sua simplicidade, pois inicialmente � mais simples adicionar mais hardware sem ter que modificar o software. No entanto, em algum momento o custo do hardware pode se tornar impeditivo, ou em casos extremos atingir o limite.

J� a escalabilidade horizontal tem como maior vantagem a capacidade de expans�o linear, pois sempre � poss�vel adicionar novas m�quinas. Entretanto, criar sistemas para trabalhar de forma distribu�da � bem mais complexo.

Conclus�o

Ent�o o que � noSQL? Como pudermos ver ao longo deste artigo, responder esta pergunta n�o � nada f�cil, pois � um movimento que engloba diversas ferramentas que implementam novas estruturas de dados e arquiteturas.

No entanto, podemos definir noSQL como o fim dos bancos de dados relacionais como bala de prata, estimulando a escolha de ferramentas que melhor se adequem �s necessidades de nossas aplica��es.

A maior contribui��o do movimento noSQL foi trazer � tona um componente arquitetural importante e que estava sendo negligenciado, o modo como armazenamos e tratamos nossos dados.

Na segunda parte deste artigo ser� apresentado na pr�tica como instalar e utilizar as principais ferramentas noSQL dispon�veis, de forma a abranger os modelos de dados e arquiteturas apresentados nesta primeira parte.

Links:

Confira tamb�m

Cursos de SQL

Cursos

Curso de SQL

Curso

Introdu��o pr�tica ao comando SQL SELECT

Curso

// 25 ANOS FORMANDO PROGRAMADORES

APRENDA A

PROGRAMAR DE VERDADE

Um caminho claro do zero ao avan�ado, com pr�tica de verdade.

Voc� constr�i projetos reais desde o come�o e sai sabendo programar sozinho, sem copiar c�digo de professor.

Forma��es completas

+40 Projetos

+5000 exerc�cios

+40 Tecnologias

Mentorias individuais

Suporte com IA

Comunidade de alunos

QUERO COME�AR AGORA

Confira outros conte�dos:

Por Alexandre Em 2010

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Ezequiel Barbosa

Em um banco relacional, em boa parte dos casos, precisamos preocupar bem com o relacionamento entre as tabelas, deixar chave primeira num�rica e criar �ndice em algum outro campo.
J� no NoSQL quais s�o principais pontos a serem observados para deixar uma consulta perform�tica, principalmente quando existe JOIN?

há +1 ano

Ver coment�rios anteriores (3)

Marcio Souza

Ol�!

1�: Ela � referente a banco de dados relacionais, n�o �? Porque n�o existe esses padr�es no mundo NoSQL.

Tipos de Joins: Padr�es ANSI92 (SQL92) e SQL89
Por Eduardo Soares Alves e Jos� Carlos de Castro J�nior Revisado por Marcelo Pivovar - Sulution Architectx,
Postado em Mar�o 2015

Ap�s v�rios testes em ambientes corporativos de grande porte, n�o identifiquei diferen�a no que se refere a performance entre os padr�es, por�m, no quesito manuten��o e legibilidade do c�digo, o padr�o SQL92 � de longe o melhor, pois, em Queries extensas (com v�rias entidades e condi��es) as Joins entre as tabelas s�o visualizadas de forma mais r�pida.

https://www.oracle.com/br/technical-resources/articles/sql/types-of-joins-standard-sql.html

2�: N�o existe diferen�a.

3�: Da mesma forma, voc� vai criar no NoSQL o �ndice para o campo desejado. Sobre Redshift SQ n�o posso falar nada porque n�o � um recurso que j� tenha usado ou estudado.

4�: Estat�stica � a parte respons�vel pela coleta, organiza��o e interpreta��o de dados extra�dos de algum ambiente. No caso do NoSQL � a performance de consultas ao banco de dados. Por exemplo, se uma consulta demora de 3 a 5 minutos, fica �bvio que est� lenta. Se ela retorna em menos de 1 segundo, fica �bvio que est� r�pida. A estat�stica vai te passar esse tipo de informa��es. Alguns bancos v�o indicar na estat�stica quais os campos foram pesquisados, quais �ndices foram usados, quais campos n�o foram usados e que poderiam ser removidos para melhor a performance entre outras coisas.

J� os �ndices s�o uma esp�cie de organiza��o (tabela), ordenada de alguma forma, que armazenam informa��es especificas dos registros da base de dados. Quando um consulta for realizada por esse �ndice, a consulta vai nessa "tabela" e o �ndice indicar� onde os registros est�o sem precisar percorrer toda a base de dados at� encontra-los.

Suponha o seguinte, voc� tem 500 gavetas em uma sala e cada gaveta tem um livro. Quando voc� quiser ler o livro "Aprenda Java" ter� que procurar gaveta por gaveta pelo livro. Mas se registrar em uma lista o n� da gaveta e o nome do livro, basta procurar na lista pelo nome do livro e ent�o encontrar� o n� da gaveta. Muito mais r�pido, n�o �? � isso que o �ndice faz.