Tutorial Completo de Modelagem de Dados

Por que eu devo ler este artigo:

O artigo apresenta o assunto modelagem de dados, descrevendo os principais conceitos envolvidos no assunto e diferentes nota��es que podem ser aplicadas para modelagem dos dados.

A modelagem de dados � uma etapa importante e essencial em qualquer projeto de desenvolvimento ou manuten��o de software. Assim, estar atualizado neste assunto � importante para qualquer profissional da �rea. Serve como material introdut�rio ao tema de modelagem de dados, apresentando um breve resumo sobre o assunto.

O objetivo deste artigo � apresentar uma vis�o geral sobre as habilidades de modelagem de dados fundamentais que todos os desenvolvedores devem ter, habilidades que podem ser aplicadas em projetos tradicionais que seguem uma abordagem em s�rie e aplicadas em projetos �geis que seguem uma abordagem evolucion�ria. Idealmente, todos profissionais de TI deveriam ter um entendimento b�sico sobre modelagem de dados. Eles n�o precisam ser especialistas neste assunto, mas deveriam estar preparados para se envolverem na cria��o de um modelo, estar apto a ler um modelo de dados existente, entender quando criar um modelo de dados e quando n�o criar e conhecer as t�cnicas de projeto de dados fundamentais.

Neste contexto, este artigo apresenta uma breve introdu��o sobre estas habilidades. Seu p�blico principal s�o os desenvolvedores de aplica��es que precisam obter um entendimento de alguma das atividades cr�ticas realizadas por um DBA. Este entendimento deve levar ao conhecimento do que um DBA faz e por que faz, ajudando a estabelecer uma ponte de comunica��o reduzindo a dist�ncia existente entre esses dois pap�is fundamentais no desenvolvimento de software (desenvolvedor e DBA).

O que � modelagem de dados?

Modelagem de dados � o ato de explorar estruturas orientadas a dados. Como outros artefatos de modelagem, modelos de dados podem ser usados para uma variedade de prop�sitos, desde modelos conceituais de alto n�vel at� modelos f�sicos de dados. Do ponto de vista de um desenvolvedor atuando no paradigma orientado a objetos, modelagem de dados � conceitualmente similar � modelagem de classes. Com a modelagem de dados identificamos tipos de entidades da mesma forma que na modelagem de classes identificamos classes. Atributos de dados s�o associados a tipos de entidades exatamente como associados atributos e opera��es �s classes. Existem associa��es entre entidades, similar �s associa��es entre classes � relacionamento, heran�a, composi��o e agrega��o s�o todos conceitos aplic�veis em modelagem de dados.

Modelagem de dados tradicional � diferente da modelagem de classes porque o seu foco � totalmente nos dados � modelos de classes permitem explorar os aspectos comportamentais e de dados em um dom�nio de aplica��o, j� com o modelo de dados podemos apenas explorar o aspecto dado. Por causa deste foco, projetistas de dados tendem a serem melhores em identificar os dados �corretos� em uma aplica��o do que modeladores de objetos. No entanto, algumas pessoas modelam m�todos de banco de dados (stored procedures, stored functions e triggers) quando est�o realizando a modelagem f�sica dos dados.

Apesar de o foco deste artigo ser modelagem de dados, existem normalmente alternativas para artefatos orientados a dados. Por exemplo, quando estamos na modelagem conceitual, os diagramas ORM (Object Role Model) n�o s�o a �nica op��o. Al�m do Modelo L�gico de Dados, � comum a cria��o de diagramas de classes da UML.

Como modelos de dados s�o usados na pr�tica?

Embora as quest�es de metodologias sejam abordadas depois, precisamos discutir como modelos de dados podem ser usados na pr�tica para melhor entend�-los. Provavelmente, iremos nos deparar a tr�s estilos b�sicos de modelos de dados:

Modelos de dados conceituais: esses modelos, algumas vezes chamados modelos de dom�nio, s�o tipicamente usados para explorar conceitos do dom�nio com os envolvidos no projeto. Em equipes �geis, modelos conceituais de alto n�vel s�o normalmente criados como parte do esfor�o inicial do entendimento dos requisitos do sistema, pois eles s�o usados para explorar as estruturas e conceitos de neg�cio est�ticos de alto n�vel. Em equipes tradicionais (n�o �geis), modelos de dados conceituais s�o normalmente criados como precursores aos modelos l�gicos de dados (MLD) ou suas alternativas.
Modelos L�gico de Dados (MLDs): MLDs s�o usados para explorar os conceitos do dom�nio e seus relacionados. Isso pode ser feito para o escopo de um simples projeto ou para uma empresa inteira. MLDs descrevem os tipos de entidades l�gicas, tipicamente referenciadas simplesmente como tipos de entidades, os atributos de dados que descrevem essas entidades e os relacionamentos entre as entidades. MLDs s�o raramente usados em projetos �geis apesar de normalmente estarem presentes em projetos tradicionais (onde eles raramente adicionam muito valor na pr�tica).
Modelos F�sicos de Dados (MFDs): MFDs s�o usados para projetar o esquema interno de um banco de dados, descrevendo as tabelas de dados, as colunas de dados das tabelas e o relacionamento entre as tabelas. MFDs normalmente s�o bastante �teis em projetos �geis e tradicionais, por isso este ser� o foco deste artigo: modelagem f�sica dos dados.

Embora MLDs e MFDs parecerem similares, e eles de fato s�o, o n�vel de detalhes que eles modelam pode ser significativamente diferente. Isso porque o objetivo de cada diagrama � diferente � podemos usar um MLD para explorar conceitos do dom�nio com os envolvidos no projeto e MFD para definir o projeto do banco de dados. A Figura 1 apresenta um simples MLD e a Figura 2 um simples MFD, ambos modelando o conceito de clientes e endere�os, assim como o relacionamento entre eles. Ambos os diagramas seguem a nota��o de Barker, que ser� descrita a seguir. Note como o MFD mostra mais detalhes, incluindo uma tabela associativa necess�ria para implementar a associa��o, assim como as chaves necess�rias para manter os relacionamentos. Mais detalhes sobre esses conceitos ser�o descritos a seguir.

MFDs devem tamb�m refletir os padr�es de nomenclatura de banco de dados da organiza��o. Neste caso, uma abrevia��o do nome da entidade � colocado para cada nome de coluna e uma abrevia��o para �n�mero� foi consistentemente introduzida. Um MFD deve tamb�m indicar os tipos de dados das colunas, tais como integer e char(5). Apesar de a Figura 2 n�o mostr�-las, tabelas de refer�ncia como para o endere�o � usado, assim como para estados e pa�ses est�o impl�citos pelos atributos END_USADO_CODIGO,END_ESTADO_CODIGO, END_PAIS_CODIGO.

**Figura 1**. Um simples modelo l�gico de dados

**Figura 2**. Um simples modelo f�sico de dados

Modelos de dados podem ser usados efetivamente tanto no n�vel da empresa como de projetos. Os arquitetos da empresa normalmente criar�o um ou mais MLDs de alto n�vel que descreve as estruturas de dados que apoiam toda a empresa, normalmente chamados de modelos de dados da empresa ou modelos de informa��o da empresa. Um modelo de dados da empresa � uma das v�rias vis�es que os arquitetos da empresa podem escolher para manter e apoiar � outras vis�es podem explorar a infraestrutura de rede/hardware, a estrutura da organiza��o, infraestrutura de softwares o processo de neg�cios, dentre outros. Esses modelos prov�m informa��es que uma equipe de projeto pode usar como conjunto de restri��es e tamb�m como descri��o da estrutura do sistema.

Equipes de projeto tipicamente criar�o MLDs como um dos principais artefatos de an�lise quando seu ambiente de implementa��o � predominantemente procedural por natureza, por exemplo quando est�o usando COBOL estruturado como linguagem de implementa��o. MLDs s�o tamb�m boas escolhas quando um projeto � orientado a dados, como um data warehouse ou sistema de relat�rio. No entanto, MLDs s�o normalmente escolhas ruins quando uma equipe de projeto est� usando tecnologias orientadas a objeto ou baseadas em componentes porque os desenvolvedores trabalhariam melhor com diagramas UML ou quando o projeto n�o � orientado a dados. Como uma dica de modelagem, aplique os artefatos corretos para aquele trabalho a ser desenvolvido.

Quando um banco de dados relacional � usado para armazenar dados, equipes de projeto s�o aconselhadas a criar um MFD para modelar um esquema interno. MFD normalmente � apenas um dos artefatos de projeto cr�ticos para projetos de desenvolvimento de aplica��es de neg�cio.

O que dizer sobre modelos conceituais?

Muitos profissionais de dados preferem criar um ORM (Object-Role Model), como o apresentado no exemplo da Figura 3, em vez de um MLD para um modelo conceitual. A vantagem � que a nota��o � muito simples, algo que os envolvidos no projeto podem rapidamente interpretar, apesar da desvantagem que seria o fato de os modelos se tornarem grandes rapidamente. ORMs nos permite primeiramente explorar os exemplos de dados reais em vez de simplesmente saltar para uma abstra��o potencialmente incorreta � por exemplo, a Figura 3 examina o relacionamento entre clientes e um endere�o em detalhe.

Um
simples ORM (Object-Role Model) — **Figura 3**. Um simples ORM (Object-Role Model)

Normalmente ORMs s�o usados para explorar o dom�nio da aplica��o com os envolvidos no projeto, mas depois ele � substitu�do por um artefato mais tradicional, como um MLD, um diagrama de classes ou at� um MFD.

Nota��es comuns de modelagem de dados

A Figura 4 apresenta um resumo da sintaxe das quatro nota��es mais comuns para modelagem de dados: Engenharia da Informa��o (EI), Nota��o de Barker, IDEF1X e UML (Unified Modeling Language). Este diagrama n�o tem a pretens�o de ser altamente compreensivo, mas sim prover uma vis�o geral b�sica sobre as nota��es. Al�m disso, para n�o se estender muito no texto, n�o foi poss�vel descrever a abordagem altamente detalhada para nomenclatura de relacionamento como sugerido por Barker. Apesar disso, foi provida uma breve discuss�o de cada nota��o na Tabela 1.

**Figura 4**. Comparando a sintaxe das nota��es comuns para modelagem de dados

Nota��o	Coment�rios
EI	A nota��o EI � simples e f�cil de ser lida, e � bem abrangente para modelagem de dados de neg�cio e modelagem l�gica de alto n�vel. O �nico ponto negativo desta nota��o � que ela n�o suporta a identifica��o de atributos de uma entidade. Assume-se que os atributos ser�o modelados com outro diagrama ou simplesmente descrito em uma documenta��o de apoio.
Barker	A nota��o de Barker � uma das mais populares, sendo apoiadas por v�rias ferramentas (ex: Oracle toolset), � bem abrangente para todos os tipos de modelos de dados. Esta abordagem pode se tornar complicada com hierarquias que possuem v�rios n�veis de profundidade.
IDEF1X	Esta nota��o � a mais complexa, e foi originalmente intencionada para modelagem f�sica, mas foi mal aplicada para modelagem l�gica. Esta nota��o tem sido abandonada por todos, ent�o evite-a se poss�vel.
UML	Esta n�o chega a ser uma nota��o de modelagem de dados oficial. Apesar de v�rias sugest�es para um perfil UML de modelagem de dados existirem, nenhum � completo e n�o s�o oficializados pela UML.

Tabela 1. Discutindo nota��es comuns de modelagem de dados

Como modelar dados

� crucial para um desenvolvedor de aplica��o ter uma no��o dos fundamentos de modelagem de dados n�o apenas para ler os modelos de dados, mas tamb�m para trabalhar efetivamente com os DBAs respons�veis pelos aspectos relacionados aos dados do projeto. O objetivo ao ler esta se��o n�o � aprender como se tornar um modelador de dados, mas sim obter uma aprecia��o a respeito do que � envolvido nesta tarefa.

As seguintes tarefas s�o realizadas de forma iterativa:

Identificar os tipos de entidade;
Identificar atributos;
Aplicar conven��o de nomes;
Identificar relacionamentos;
Associar chaves;
Normalizar para reduzir a redund�ncia dos dados;
Diversificar para melhorar o desempenho.

Identificar os tipos de entidade

Um tipo de entidade, ou simplesmente entidade, � conceitualmente similar ao conceito de orienta��o a objeto de uma classe � um tipo de entidade representa uma cole��o de objetos similares. Um tipo de entidade pode representar uma cole��o de pessoas, lugares, coisas, eventos ou conceitos. Exemplos de entidades em um sistema de vendas incluiria: Cliente, Endere�o, Venda, Item e Taxa. Se estiv�ssemos modelando classes, esperar�amos descobrir classes exatamente com esses nomes. No entanto, a diferen�a entre uma classe e um tipo de entidade � que classes possuem dados e comportamentos, enquanto que tipos de entidade possuem apenas dados.

Idealmente, uma entidade deveria ser normal, descrevendo de forma coesa uma informa��o do mundo real. Uma entidade normalmente descreve um conceito, tal como uma classe coesa modela um conceito. Por exemplo, cliente e venda s�o claramente dois conceitos diferentes, portanto, faz sentido model�-los como entidades diferentes.

Identificar atributos

Cada tipo de entidade ter� um ou mais atributos de dados. Por exemplo, na Figura 1 podemos ver que a entidade Cliente possui atributos como Primeiro Nome e Sobrenome e na Figura 2 que a tabela TCLIENTE possui colunas de dados correspondentes CLI_PRIMEIRO_NOME e CLI_SOBRENOME (uma coluna � a implementa��o de um atributo de dados em um banco de dados relacional).

Atributos devem ser coesos do ponto de vista do dom�nio da aplica��o. Na Figura 1 decidimos que quer�amos modelar o fato de pessoas possu�rem primeiro nome e sobrenome em vez de apenas um nome (ex: �Cl�udio� e �Dias� VS. �Cl�udio Dias�). Usar o n�vel de detalhe correto pode ter um impacto significativo no esfor�o de desenvolvimento e manuten��o. Refatorar uma simples coluna de dados em v�rias colunas pode ser dif�cil, o que pode resultar em construir o sistema com elementos desnecess�rios e, portanto, provoca um maior custo de desenvolvimento e de manuten��o do que realmente necess�rio.

Aplicar conven��es de nome

Sua organiza��o deve dispor de normas e diretrizes aplic�veis � modelagem de dados, algo que voc� deve ser capaz de obter dos administradores da empresa (se n�o existir voc� deve fazer algum lobby para inclu�-lo).Essas diretrizes devem incluir as conven��es de nomenclatura para a modelagem l�gica e f�sica, as conven��es de nomenclatura l�gica devem ser focadas na capacidade de leitura de humanos, enquanto as conven��es de nomenclatura f�sica refletir�o considera��es t�cnicas. Voc� pode ver claramente que diferentes conven��es de nomenclatura foram aplicadas nas Figuras 1 e 2.

A ideia b�sica � que desenvolvedores sigam um conjunto comum de padr�es de modelagem em um projeto de software. Tal como � importante seguir conven��es comuns de codifica��o, um c�digo limpo que segue as diretrizes escolhidas � mais f�cil de ser compreendido. Isso funciona da mesma forma para as conven��es de modelagem de dados.

Identificar relacionamentos

No mundo real, entidades possuem relacionamentos entre elas. Por exemplo, clientes FAZEM compras, clientes MORAM EM endere�os e itens de venda S�O PARTE DAS vendas. Todos esses termos em mai�sculo definem relacionamentos entre entidades. Os relacionamentos entre entidades s�o conceitualmente id�nticos aos relacionamentos (associa��es) entre objetos.

A Figura 5 descreve um MLD parcial para um sistema de compra online. A primeira coisa a se notar s�o os v�rios estilos aplicados aos nomes dos relacionamentos e pap�is � diferentes relacionamentos requerem diferentes abordagens. Por exemplo, o relacionamento entre Cliente e Venda possui dois nomes, compra e � comprado por, mesmo o relacionamento entre essas entidades sendo apenas um. Neste exemplo, tendo um segundo nome no relacionamento, a ideia seria especificar como ler o relacionamento em cada dire��o. O ideal seria colocar apenas um nome por relacionamento.

Um modelo l�gico de dados (Nota��es Engenharia da Informa��o) — **Figura 5**. Um modelo l�gico de dados (nota��es Engenharia da Informa��o)

Precisamos tamb�m identificar a cardinalidade e opcionalmente de um relacionamento (a UML combina os conceitos de cardinalidade e opcionalmente de um relacionamento em um conceito �nico de multiplicidade). Cardinalidade representa o conceito de �quantos� enquanto opcionalmente representa o conceito de �se � obrigat�ria a exist�ncia da entidade�. Por exemplo, n�o � suficiente saber que clientes fazem vendas. Quantas vendas um cliente pode realizar? Nenhuma, uma ou v�rias? Al�m disso, os relacionamentos existem nos dois sentidos: n�o apenas clientes fazem vendas, mas vendas s�o realizadas por clientes. Isso nos leva a quest�es como: quantos clientes podem ser envolvidos em uma dada venda e � poss�vel ter uma venda com nenhum cliente envolvido? A Figura 5 mostra que clientes fazem nenhuma ou mais vendas e que qualquer venda � realizada por um e somente um cliente. Ela tamb�m mostra que um cliente possui um ou mais endere�os e que qualquer endere�o possui zero ou mais clientes associados a ele.

Apesar de a UML distinguir entre diferentes tipos de relacionamentos � associa��es, hierarquia, agrega��o, composi��o e depend�ncia � modeladores de dados normalmente n�o est�o por dentro dessa quest�o. Subtipo, uma aplica��o de hierarquia, � normalmente encontrada em modelos de dados. Agrega��o e composi��o s�o muito menos comum, assim como depend�ncias, que s�o tipicamente uma constru��o de software e portanto n�o aparecem no modelo de dados, a menos que tenhamos um modelo f�sico de dados bastante detalhado que mostre como views, triggers ou stored procedures dependem de outros aspectos do esquema do banco de dados.

Associar chaves

Existem duas estrat�gias fundamentais para associar chaves �s tabelas. Primeiro, podemos associar uma chave natural que � um ou mais atributos de dados existentes que s�o �nicos para o conceito do neg�cio. Imaginemos uma tabela Cliente, por exemplo. Ela possui de imediato duas chaves candidatas, as colunas NumeroCliente e CPF. A segunda forma � introduzindo uma nova coluna, chamada chave substituta, que � uma chave que n�o possui qualquer significado para o neg�cio. Um exemplo disso seria uma coluna idEndereco de uma tabela Endereco. Endere�os n�o possuem uma chave natural �trivial� porque seria necess�rio usar todas as colunas da tabela Endereco para formar uma chave. Assim, introduzir uma chave substituta � uma op��o muito melhor neste caso.

O debate entre "natural vs. substituta" � um das grandes quest�es religiosas na comunidade de banco de dados. O fato � que n�o existe estrat�gia perfeita, e com o tempo percebemos que na pr�tica algumas vezes fazem sentido usar chaves naturais e em outras situa��es � mais adequado o uso de chaves substitutas.

Normalizar para reduzir redund�ncia de dados

Normaliza��o de dados � um processo no qual atributos de dados em um modelos de dados s�o organizados para aumentar a coes�o dos tipos de entidade. Em outras palavras, o objetivo da normaliza��o de dados � reduzir e at� eliminar redund�ncia de dados, uma quest�o importante para desenvolvedores, pois � incrivelmente dif�cil armazenar objetos em um banco de dados relacional que mant�m a mesma informa��o em v�rios lugares. A Tabela 2 resume as tr�s principais regras de normaliza��o descrevendo como aumentar os n�veis de normaliza��o em tipos de entidade.

Com respeito � terminologia, um esquema de dados � considerado estar em um n�vel de normaliza��o do seu tipo de entidade menos normalizado. Por exemplo, se todos os tipos de entidade est�o na segunda forma normal (2NF) ou maior, ent�o dizemos que o esquema de dados est� na 2NF.

N�vel	Regra
Primeira Forma Normal (1NF)	Uma entidade est� na 1NF quando ela n�o cont�m grupos de dados repetidos.
Segunda Forma Normal (2NF)	Uma entidade est� na 2NF quando ela est� na 1NF e quando todos seus atributos que n�o s�o chaves prim�rias s�o completamente dependentes de sua chave prim�ria.
Terceira Forma Normal (3NF)	Uma entidade est� na 3NF quando ele est� na 2NF e quando todos seus atributos s�o diretamente dependentes da chave prim�ria.

Tabela 2. Regras de normaliza��o de dados

A Figura 6 descreve um esquema de banco de dados na ONF enquanto que a Figura 7 descreve um esquema normalizado na 3NF.

Por que normaliza��o de dados? A vantagem de ter do esquema de dados altamente normalizado � que a informa��o � armazenada em um lugar apenas, reduzindo a possibilidade de dados inconsistentes. Al�m disso, esquemas de dados altamente normalizados em geral s�o conceitualmente mais pr�ximos dos esquemas orientados a objeto, pois os objetivos da orienta��o a objetos de promover alta coes�o e pouco acoplamento entre as classes resulta em solu��es similares (ao menos do ponto de visa de dados). Isso geralmente torna mais simples mapear os objetos para o esquema de dados. Infelizmente, a normaliza��o normalmente traz um custo para o desempenho. Com o esquema de dados da Figura 6 todos os dados para uma venda est�o armazenados em uma linha (assumindo que vendas poder�o ter at� dois itens), simplificando o acesso. Com o esquema de dados da Figura 6 podemos rapidamente determinar a quantidade total de uma venda lendo uma �nica linha da tabela. Para fazer o mesmo com o esquema de dados da Figura 7, precisamos ler dados a partir de uma linha na tabela Venda, dados a partir de linhas na tabela ItemVenda para aquela venda e dados a partir das linhas correspondentes na tabela Item. Para esta consulta, o esquema de dados da Figura 6 provavelmente obt�m melhor resultado.

**Figura 6**. Um esquema de dados inicial para Venda (nota��o UML)

**Figura 7**. Um esquema normalizado em 3NF (nota��o UML)

Diversificar para melhorar desempenho

Esquemas de dados normalizados, quando colocados em produ��o, normalmente sofrem problemas de desempenho. Isso faz sentido � as regras de normaliza��o focam em reduzir redund�ncia de dados, n�o em melhorar desempenho do acesso aos dados. Uma parte importante da modelagem de dados � Diversificar por��es do esquema de dados para melhorar tempo de acesso aos dados.

Observe que se o projeto inicial e normalizado dos dados atinge o desempenho necess�rio para a aplica��o, nada precisa ser feito. A Diversifica��o deve ser aplicada apenas quando os testes de desempenho mostram que temos um problema com os objetos, revelando que precisamos melhorar o tempo de acesso aos dados.

Modelagem de dados evolucion�ria/�gil

Modelagem de dados evolucion�ria � a modelagem de dados realizada de forma incremental. Modelagem de dados �gil � a modelagem de dados evolucion�ria feita de forma colaborativa.

Apesar de nem todos pensarem assim, a modelagem de dados pode ser uma das mais desafiantes tarefas que um DBA pode estar envolvido em um projeto de desenvolvimento �gil.

Como voc� melhora suas habilidades de modelagem de dados? Pr�tica, pr�tica, pr�tica. Se voc� tiver a chance, voc� deve trabalhar pr�ximo a DBAs, se ofere�a para trabalhar na modelagem de dados e pergunte sobre o andamento do trabalho. Isso far� com que um profissional sempre evolua seu conhecimento na �rea, tanto na modelagem l�gica como na modelagem f�sica.

Al�m disso, voc� pode ter a oportunidade de trabalhar com o arquiteto da empresa. Estes profissionais tamb�m possuem bastante conhecimento sobre o dom�nio das aplica��es e como abstra�-los para a modelagem dos dados.

Al�m de tudo isso, � preciso estar sempre atualizado lendo informa��es sobre a �rea. Este artigo � um bom ponto de partida, apresentando uma breve introdu��o sobre o tema. No entanto, � importante ler muito mais informa��es sobre o assunto para se tornar um especialista.

// 25 ANOS FORMANDO PROGRAMADORES

APRENDA A

PROGRAMAR DE VERDADE

Um caminho claro do zero ao avan�ado, com pr�tica de verdade.

Voc� constr�i projetos reais desde o come�o e sai sabendo programar sozinho, sem copiar c�digo de professor.

Forma��es completas

+40 Projetos

+5000 exerc�cios

+40 Tecnologias

Mentorias individuais

Suporte com IA

Comunidade de alunos

QUERO COME�AR AGORA

Confira outros conte�dos:

Por Arilo Em 2011

Modelagem de Dados Tutorial