Artigo SQL Magazine 12 - Desnormalização: uma faca de dois gumes

Clique aqui para ler esse artigo em PDF.

Clique aqui para ler todos os artigos desta edi��o

Desnormaliza��o: uma faca de dois gumes

por Eduardo Bezerra

Leitura Obrigat�ria: Artigos do Prof Br�ulio - SQL Magazine 6 e 7.

Normalizar as tabelas de um banco de dados relacional tem como objetivo prevenir o aparecimento de certas depend�ncias (depend�ncias funcionais n�o-triviais, parciais, transitivas, multivaloradas ou de jun��o) nesse banco de dados. O procedimento para se chegar a um banco de dados normalizado consiste em aplicar sucessivamente diversas transforma��es sobre o esquema desse banco de dados de forma a obter um novo esquema onde as tabelas componentes estejam em conformidade com determinadas restri��es pr�-estabelecidas. Essas restri��es est�o associadas �s denominadas formas normais.

Uma forma normal consiste em um conjunto de restri��es que um esquema de banco de dados deve satisfazer para que se possa afirmar que tal esquema satisfaz �quela forma normal. Conforme detalhado nos artigos do Prof. Br�ulio Ferreira (veja a SQL Magazine 6 e 7), existem diversas formas normais. Cada forma normal (� exce��o da primeira) engloba as restri��es das formas normais anteriores e define restri��es adicionais a serem satisfeitas pelo esquema do banco de dados.

Na pr�tica, a normaliza��o � realizada atrav�s da fragmenta��o vertical de uma ou mais tabelas, ou seja, atrav�s da cria��o de duas ou mais novas tabelas para conter colunas que anteriormente pertenciam a uma �nica tabela. Portanto, de uma forma geral, um esquema normalizado possui mais tabelas do que o seu esquema correspondente n�o normalizado. A aplica��o da normaliza��o a um esquema d� a certeza de que os dados armazenados segundo este esquema estar�o livres de diversas anomalias as quais est� suscet�vel um esquema que n�o esteja normalizado, como a repeti��o (redund�ncia) descontrolada de dados.

Podemos pensar na normaliza��o como um estado (ou situa��o) do banco de dados: se todas as tabelas desse banco est�o normalizadas, ent�o o banco est� normalizado. Nesse sentido, o estado inverso � normaliza��o � chamado de desnormaliza��o, no qual uma ou mais tabelas do modelo l�gico do banco de dados s�o aglutinadas em uma �nica tabela do esquema relacional. A princ�pio, a �nica raz�o para a aplica��o da desnormaliza��o � a de eliminar o custo das jun��es em opera��es de sele��o sobre as tabelas envolvidas.

Uma an�lise superficial do par�grafo anterior pode levar o leitor a concluir que a desnormaliza��o sempre aumenta o desempenho no processamento de consultas de sele��o. O racioc�nio (err�neo, como veremos a seguir) para essa conclus�o seria o seguinte: �se a quantidade de tabelas � maior em um esquema relacional normalizado, ent�o haver� um maior n�mero de opera��es de jun��o para a obten��o do resultado das consultas nesse esquema do que em um esquema desnormalizado correspondente (opera��es de jun��o s�o sabidamente bastante custosas do ponto de vista computacional). Conseq�entemente, o custo da execu��o de sele��es em um esquema normalizado � sempre maior do que o custo sobre o esquema desnormalizado correspondente�.

Para argumentar a raz�o de o racioc�nio anterior constituir uma fal�cia, me permitam considerar algumas situa��es fora do contexto de bancos de dados:

� Ontem houve greve de �nibus no Rio de Janeiro. Fui para o trabalho de carro. A princ�pio, o que era de se esperar era que eu chegasse mais cedo ao trabalho (afinal de contas, a quantidade de �nibus nas ruas era menor). Acabei por chegar mais tarde. O fato � que, justamente por conta da falta de �nibus, a quantidade de carros de passeio nas ruas aumentou tanto que o tr�nsito ficou ainda mais ca�tico do que o usual.

� A princ�pio, pode-se pensar que o aumento dos downloads de m�sicas pela Internet � o principal fator para a queda de venda de CDs. No entanto, um estudo realizado por economistas norte-americanos revela que baixar m�sicas de um CD n�o afeta significativamente suas vendas. Segundo o estudo, outros fatores parecem ser a verdadeira causa da queda de vendas: competi��o com outras m�dias (DVDs e v�deo games); redu��o do n�mero de discos lan�ados; boicote dos consumidores contra a ind�stria fonogr�fica; crescimento exagerado das vendas de CDs nos anos noventa, quando o uso de CDs em vez de LPs, estava come�ando a deslanchar; etc.

O leitor pode vir a se perguntar o que as situa��es acima t�m a ver com o conceito de desnormaliza��o. O fato � que o mesmo tipo de racioc�nio menos cuidadoso que pode levar a conclus�es err�neas (assim como nas situa��es acima) � utilizado na desnormaliza��o. Na verdade, as vari�veis com as quais o desenvolvedor encarregado de escolher entre a normaliza��o e a desnormaliza��o tem que lidar s�o numerosas. Analisada mais detalhadamente, a situa��o � mais complicada do que parece, e n�o necessariamente o processamento sobre uma tabela desnormalizada ser� sempre mais eficiente do que sobre um esquema equivalente normalizado.

O objetivo desse artigo � mostrar que, embora existam casos em que a desnormaliza��o se justifica, h� algumas situa��es em que a desnormaliza��o traz um aumento no tempo de processamento, al�m de outras desvantagens. Nas demais se��es deste artigo, tento lan�ar luz sobre diversas quest�es relacionadas � desnormaliza��o.

Exemplo de tabela desnormalizada

Para exemplificar os argumentos das se��es seguintes, vamos considerar a tabela denominada Loca��es, apresentada na Listagem 1. Essa tabela apresenta informa��es sobre carros de uma locadora de ve�culos, al�m de informa��es sobre os locat�rios desses carros e das loca��es realizadas.

Loca��es( placa_carro,

licen�a_locat�rio,

nome_locat�rio,

endere�o_locat�rio,

modelo_carro,

cnpj_fabricante_carro,

raz�o_social_fabricante_carro,

qtd_km_rodados_total,

qtd_km_rodados_por_locat�rio,

data_in�cio_loca��o,

data_t�rmino_loca��o )

Listagem 1.

Essa tabela est� claramente desnormalizada. Para entender o porqu� disso, considere a exist�ncia das seguintes depend�ncias funcionais (entre outras):

� cnpj_fabricante_carro � raz�o_social_fabricante_carro (depend�ncia transitiva da chave prim�ria; viola��o da 3FN)

� licen�a_locat�rio � nome_locat�rio (depend�ncia parcial da chave prim�ria; viola��o da 2FN)

Em uma tabela desse tipo (desnormalizada) algumas de suas colunas (n�o componentes da chave) n�o depender�o �nica e exclusivamente da chave prim�ria. De acordo com Fabian Pascal (veja Nota), essa caracter�stica leva a poss�veis depend�ncias:

1. Uma ou mais colunas dependem somente de uma parte da chave (composta), o que corresponde � viola��o da 2FN.

2. Depend�ncia indireta da chave. Isto �, uma ou mais colunas dependem de outra coluna (n�o chave) que por sua vez depende da chave. Isso corresponde � viola��o da 2FN.

3. Depend�ncias multivaloradas dentro da chave da tabela. Isso corresponde � viola��o da 4FN.

4. Depend�ncias de jun��o dentro da chave prim�ria, o que corresponde � viola��o da 5FN.

Nota

Fabian Pascal � um especialista em bancos de dados relacionais de opini�es um tanto pol�micas e declara��es (um outro tanto) r�spidas, mas que merecem a aten��o de qualquer profissional que trabalhe com SGBDs. Visite www.dbdebunkings.com.

Projeto l�gico versus projeto f�sico

Um aspecto pol�mico envolvendo a normaliza��o e a desnormaliza��o � a confus�o entre os projetos l�gico e f�sico de um banco de dados. A confus�o t�pica � que �normaliza��o degrada o desempenho do banco de dados�. At� especialistas da �rea de bancos de dados mundialmente conhecidos, como Joe Celko, t�m opini�es controversas sobre o assunto (veja Nota).

Nota

"The reason for denormalization is performance." (Tradu��o: �A raz�o para desnormaliza��o � o desempenho�). Essa frase aparece na p�gina 44 do livro intitulado SQL for Smarties (Autor: Joe Celko; Editora: Morgan Kaufmann).

A normaliza��o � uma atividade t�pica do projeto l�gico de um banco de dados. Nessa etapa do projeto de um banco de dados, um modelo conceitual (e.g., o modelo de entidades e relacionamentos) � mapeado para um modelo l�gico (e.g., o modelo relacional).

J� os aspectos relativos ao desempenho devem ser tratados na etapa posterior ao projeto l�gico, denominada projeto f�sico do banco de dados. � no projeto f�sico que quest�es que influenciam no desempenho devem ser consideradas (como m�todos de armazenamento e acesso, defini��es de �ndices sobre as tabelas envolvidas, caracter�sticas do hardware utilizado, a freq��ncia de execu��o das opera��es de consulta e de manipula��o envolvidas, detalhes de implementa��o do SGBD sendo utilizado, grau de acesso concorrente a disco, etc.).

Mesmo sem considerar a confus�o entre os projetos l�gico e f�sico, a desnormaliza��o ainda n�o garante um melhor desempenho sobre opera��es em um banco de dados, conforme veremos nas duas se��es seguintes.

Consulta versus manipula��o

Voltando � quest�o das jun��es levantada anteriormente e analisando o problema mais detalhadamente, podemos constatar que a sobrecarga de processamento necess�ria para manter a integridade dos dados (atrav�s da defini��o de gatilhos, por exemplo) pode n�o compensar o ganho de desempenho obtido com a desnormaliza��o. De fato, a manuten��o da integridade pode necessitar das mesmas opera��es de jun��o que a desnormaliza��o se propunha a eliminar!

Para exemplificar, vamos considerar a tabela Loca��es. Para obter informa��es sobre loca��es, locat�rios e carros utilizados, a utiliza��o dessa tabela desnormalizada realmente produz uma execu��o mais eficiente. Afinal de contas todos os dados necess�rios est�o armazenados em uma �nica tabela, o que normalmente leva o SGBD a posicionar essas informa��es em blocos de disco cont�guos.

No entanto, o que acontece quando um novo registro deve ser adicionado � tabela Loca��es? Uma das opera��es que devem ser realizadas para garantir que os dados permane�am consistentes � atualizar a quantidade total de quil�metros rodados pelo carro (coluna qtd_km_rodados_total). Para isso, todos os valores dos campos de qtd_km_rodados_total dever�o ser atualizados para os registros que possu�rem valores de placa do carro e de licen�a do locat�rio semelhantes ao registro rec�m inclu�do. Deixo como exerc�cio para o leitor verificar que h� tamb�m problemas quando da exclus�o e da atualiza��o de registros nessa tabela. Todos esses problemas provenientes da sua desnormaliza��o!

A conclus�o � que, se por um lado a desnormaliza��o tornou a obten��o de informa��es na tabela em quest�o mais eficiente, por outro lado o desempenho das opera��es de manipula��o (inser��o, remo��o e atualiza��o) fica comprometido. De uma forma geral, um dos aspectos que pesam contra a desnormaliza��o � a quest�o da consist�ncia (ou integridade) dos dados. Um benef�cio eventual obtido pela desnormaliza��o (aumento do desempenho em uma determinada consulta de sele��o) tem seu pre�o: uma tabela desnormalizada fica vulner�vel ao surgimento de anomalias quando manipula��es s�o realizadas sobre ela, e a integridade dos dados fica amea�ada.

Consulta versus consulta

A se��o anterior descreve a pol�mica mais �bvia em rela��o � escolha entre normaliza��o e desnormaliza��o (efici�ncia em consultas versus manuten��o de integridade dos dados). No entanto, a sobrecarga necess�ria para manuten��o da integridade dos dados n�o � o �nico fator a considerar quando o desenvolvedor estiver pensando em desnormalizar um esquema. H� um outro aspecto menos �bvio.

Considere novamente os dados da tabela Loca��es. Essa tabela armazena dados sobre tr�s conceitos distintos: carros, locat�rios e as pr�prias loca��es. O que acontece quando aplica��es de bancos de dados precisam obter acesso a esses dados separadamente?

Por exemplo, digamos que o departamento de marketing da locadora precisa enviar uma mala direta para as pessoas que j� alugaram carros. Provavelmente, essa tarefa envolveria uma consulta sobre a tabela Loca��es, para resgatar somente os dados relativos a clientes (nome_locat�rio e endere�o_locat�rio). Como esses dados est�o em uma tabela que possui diversas outras colunas n�o relacionadas a clientes, a quantidade de informa��es sobre clientes por bloco de disco ser� menor do que se houvesse uma tabela armazenando somente dados sobre clientes. Conseq�entemente, o SGBD levar� mais tempo para resgatar os dados necess�rios para montar a mala direta ao utilizar a tabela desnormalizada Loca��es. Perceba que esse ponto acaba indo de encontro ao citado anteriormente neste artigo. Ou seja, um dos benef�cios da desnormaliza��o (a redu��o na quantidade de jun��es) acaba sendo prejudicado em situa��es espec�ficas.

De uma forma geral, se for tomada a decis�o de aglutinar dados de duas ou mais tabelas em uma �nica tabela (ou seja, desnormalizar), as aplica��es que necessitam ter acesso aos dados que do contr�rio estariam em uma tabela separada ter�o agora que ler desnecessariamente outras informa��es. E a leitura dessas outras informa��es desnecess�rias aumenta o tempo de processamento das consultas de sele��o.

Note que essa situa��o de diferentes aplica��es acessarem diferentes informa��es � t�pica em um banco de dados corporativos. O fato � que a desnormaliza��o que resultou na tabela Loca��es fez com que o seu esquema relacional ficasse apropriado para uma determinada aplica��o (consultas envolvendo dados sobre locat�rios, carros e loca��es simultaneamente). Mas e as outras aplica��es que acessam o mesmo banco de dados e t�m necessidades de informa��es diferentes? A resposta � que o desempenho dessas aplica��es fica prejudicado pelo fato delas terem que acessar dados que simplesmente n�o as interessam. Isso para n�o mencionar as necessidades de aplica��es que sejam constru�das no futuro.

Uma a��o aconselh�vel � que o desenvolvedor estude as funcionalidades espec�ficas do SGBD que ir� utilizar (mais particularmente, as caracter�sticas relativas ao projeto f�sico de bancos de dados). Provavelmente, haver� alguma funcionalidade que aumente o desempenho de uma determinada consulta sem que seja necess�rio o uso da desnormaliza��o.

A normaliza��o tamb�m n�o � uma panac�ia

Apesar de tudo que foi descrito nas se��es anteriores, algumas vezes a viola��o das regras da normaliza��o se faz �til. A id�ia geral da normaliza��o � que o desenvolvedor de um banco de dados aplique as regras das formas normais at� �as �ltimas conseq��ncias�, ou seja, at� a quinta forma normal. Entretanto, de acordo com Chris Date, est� id�ia n�o deve ser tomada como lei. Um banco de dados completamente normalizado muitas vezes cont�m tantos grupos de dados (dom�nios de valores) fragmentados que dificultam por demais a tarefa de obten��o de informa��es.

Qualquer um envolvido no desenvolvimento de um banco de dados deve ter conhecimento da t�cnica de normaliza��o. No entanto, o desenvolvimento do banco n�o deve necessariamente se basear somente nessa t�cnica. Violar as regras da normaliza��o de forma consciente e cuidadosa � aceit�vel, mas isso somente deve ser feito quando os benef�cios da mudan�a justificam a viola��o da(s) regra(s). Abaixo cito dois casos, um em que a desnormaliza��o pode ser evitada e outro em que ela pode ser aplicada.

� Um primeiro exemplo � o caso das desnormaliza��es criadas por motivos hist�ricos, e das desnormaliza��es criadas para gera��o de relat�rios espec�ficos. Nesse caso, a desnormaliza��o pode ser evitada atrav�s do uso da desnormaliza��o virtual. Uma desnormaliza��o virtual � aquela criada atrav�s de vis�es (views). Ou seja, poder-se-iam construir diversas vis�es sobre a(s) tabela(s) desnormalizada(s), onde cada vis�o seria utilizada por uma determinada aplica��o. No entanto, h� que se considerar o outro lado da moeda (ou gume da faca!): o que um SGBD normalmente faz quando uma vis�o � solicitada � executar uma consulta � ou seja, de qualquer modo, a consulta sobre a tabela desnormalizada teria de ser executada. Por outro lado, h� SGBDs que trabalham com a materializa��o de vis�es. Ou seja, os dados da vis�o ficam armazenados (o Oracle e o SQL Server 2000, por exemplo, possuem esse recurso). A vantagem � ter o resultado pr�-computado quando for necess�rio; contudo, a vis�o ser� atualizada toda vez que ocorrerem altera��es nos dados da(s) tabela(s) envolvidas.

� Como um segundo exemplo, considere duas tabelas, Produtos e GrupoProdutos, uma que armazena produtos e outra que armazena grupos de produtos. Considere tamb�m que h� um relacionamento um-para-muitos entre Produtos e GrupoProdutos. Considere mais ainda que o campo nome em GrupoProdutos � chave candidata. O diagrama da Figura 1 ilustra duas alternativas de projeto para essas duas tabelas. Na primeira alternativa, segue-se o projeto cl�ssico. J� na segunda alternativa, o nome do grupo de produtos � adicionado � tabela Produtos, originando uma desnormaliza��o nessa tabela. Al�m disso, esse campo agora � o utilizado como chave estrangeira. Note que o tamanho de cada um dos registros da tabela Produto aumenta em rela��o � primeira alternativa (pois o nome do produto � do tipo CHAR(20), que ocupa mais espa�o que INTEGER), o que faz com que menos registros por bloco sejam trazidos do disco para a mem�ria principal. Por outro lado, essa desnormaliza��o faz com que a informa��o de nome do grupo de cada produto esteja presente em cada linha da tabela Produtos. Esse exemplo ilustra o fato de que algumas vezes a repeti��o de um campo em uma tabela (ou seja, desnormaliza��o) pode economizar uma jun��o e causar efeitos colaterais negativos irrelevantes (nesse exemplo, o pouco esfor�o de atualiza��o), sobretudo se o campo em quest�o for de pouca mutabilidade. Em particular, se a informa��o de nome do grupo de produtos for sempre necess�ria quando um produto for requisitado, talvez a segunda alternativa seja a melhor, pois isso elimina o custo de jun��o entre as duas tabelas.

Figura 1.

Conclus�es

Talvez a raz�o de haver uma guerra religiosa acerca da normaliza��o e da desnormaliza��o seja o fato de n�o haver uma resposta �bvia para a pergunta: quais s�o as conseq��ncias de utilizar uma tabela desnormalizada? A normaliza��o e a desnormaliza��o s�o estados antag�nicos de um banco de dados que n�o podem ser conciliados facilmente.

Nesse artigo, descrevi situa��es em que o uso de uma tabela desnormalizada traz preju�zos em vez de ganhos para o desempenho geral de um esquema relacional. O fato � que h� dois gumes da faca, tanto para a desnormaliza��o, quanto para a normaliza��o. Aconselho um estudo detalhado e pontual de todos os fatores envolvidos no projeto do banco de dados. Somente se todos esses fatores forem cuidadosamente estudados, e se todas as alternativas relativas ao projeto f�sico forem consideradas, � que o desenvolvedor ter� em m�os as informa��es suficientes para optar por violar ou n�o as regras da normaliza��o.

Por fim, o que posso dizer para resumir esse artigo � que a desnormaliza��o n�o � um monstro que deve ser expulso para os confins do mundo dos bancos de dados. Mas, a cada vez que voc� desnormaliza seu banco de dados, voc� paga um pre�o, que pode ser em perda de flexibilidade e manutenibilidade, em perda de integridade dos dados, ou mesmo em perda de desempenho.

Para Saber Mais

Existe um vasto material sobre o assunto �normaliza��o versus desnormaliza��o� dispon�vel na Web. Abaixo, cito alguns endere�os que podem servir como fonte adicional de estudo sobre o assunto.

� DENORMALIZATION AND THE RULES OF RECONSTRUCTION: http://www.tdan.com/i014ht04.htm

� Responsible Denormalization
http://www.winnetmag.com/SQLServer/Article/ArticleID/9785/9785.html

� DENORMALIZATION FOR PERFORMANCE - ET TU ACADEMIA? http://www.dbdebunk.citymax.com/page/page/622733.htm

� Denormalization, Database normalization and Performance - Hidden dangers: http://www.databasedesign-resource.com/denormalization.html

� Pattern: Denormalization (http://www.objectarchitects.de/ObjectArchitects/orpatterns/Performance/Denormalization/)

� Responsible Denormalization, Michelle A. Poolet, http://www.winnetmag.com/Articles/Index.cfm?ArticleID=9785

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Eduardo Em 2007

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Artigo SQL Magazine 12 - Desnormaliza��o: uma faca de dois gumes

Artigo da Revista SQL Magazine - Edi��o 12.