Modelagem de Data Warehouses e Data Marts

De uma forma simples, data warehouses e data marts existem para responder quest�es que as pessoas t�m sobre os neg�cios. S�o uma base de informa��es consolidadas, integrada e n�o vol�til, para apoiar os processos de tomada de decis�es estrat�gicas, t�ticas e tamb�m operacionais de organiza��es. Esta fun��o contrasta fortemente com o prop�sito dos sistemas transacionais (sistemas que apoiam a opera��o da empresa) e requer que o desenho ou o modelo de dados do data warehouse siga princ�pios completamente diferentes. V�rios aspectos considerados de extrema import�ncia na modelagem de sistemas transacionais como a aplica��o de r�gidas regras de normaliza��o s�o, muitas vezes, deixados de lado ao se modelar um data warehouse ou data mart.

Este artigo tem por objetivo mostrar os detalhes que envolvem uma das t�cnicas utilizadas para a modelagem dos dados em data warehouses e tamb�m em data marts, a modelagem dimensional. Essa t�cnica segue a chamada escola Ralph Kimball, introdutor do conceito do star schema. Na segunda parte deste artigo, a ser publicada em edi��o futura da SQL Magazine, apresentaremos detalhadamente o �star schema� e sua varia��o normalizada: o snowflake schema. Na terceira parte, abordaremos outra t�cnica utilizada para modelagem apenas de data warehouses, a modelagem relacional diversificado, que segue a chamada escola Bill Inmon, considerado o �pai� do conceito de data warehouse.

A modelagem dimensional e suas implementa��es

As t�cnicas de modelagem dimensional de um data warehouse, se aplicadas corretamente, garantem que o desenho do data warehouse reflita a forma de pensar dos analistas de neg�cio e gerentes da empresa e possa ser usado eficazmente para atender os seus requisitos de neg�cio. Ali�s, este � o princ�pio b�sico da modelagem de um data warehouse: discutir diretamente com o usu�rio final sua vis�o do modelo de neg�cios e fazer com que esta vis�o seja refletida na base de informa��es.

Saiba mais: Curso de Python

O data warehouse deve ser desenhado para transpor os limites de cada um dos sistemas transacionais. Ele � constru�do para responder quest�es que n�o est�o limitadas �s transa��es ou aos sistemas individuais, apresentando, desta forma, uma vis�o integrada e completa dos neg�cios. Uma das t�cnicas utilizadas para se obter um modelo para o data warehouse que identifique e represente as informa��es importantes para o modelo de neg�cios � a modelagem dimensional ou multidimensional. Quando bem definido, o modelo dimensional pode ser uma ajuda de valor incalcul�vel para as �reas de neg�cio, apoiando e otimizando todo o processo de tomada de decis�es. O modelo dimensional representa:

Os indicadores importantes para uma �rea de neg�cios, que s�o chamados de fatos ou m�tricas;
Os par�metros atrav�s dos quais estas m�tricas s�o analisadas pelos usu�rios, que s�o chamados de dimens�es (as dimens�es de neg�cios).

A Figura 1 apresenta um modelo dimensional simplificado para um processo de pedidos. As m�tricas definidas neste modelo est�o no quadro central e as dimens�es est�o representadas nos quadros ao redor das m�tricas. As m�tricas s�o sumariadas (agregadas) ou detalhadas de acordo com o interesse da an�lise a ser feita sobre os dados. Este modelo � f�cil de ser entendido por uma pessoa da �rea de neg�cios, j� que �as coisas que eu avalio� est�o na parte central do diagrama e �as formas de se olhar para elas� est�o nos quadros em volta.

**Figura 1.** Vis�o de neg�cios de um modelo para processo de pedidos (note que esta � a vis�o do usu�rio e que ainda n�o estamos considerando todos os atributos a serem implementados)

Fica f�cil perceber que estes quadros facilmente se transformar�o em tabelas (com alguns atributos adicionais) utilizadas para armazenar toda a informa��o necess�ria. Um modelo como este n�o muda muito ao ser implementado em um banco de dados relacional (RDBMS). Cada quadro com os atributos de uma dimens�o se torna uma tabela, chamada de tabela dimens�o, e o quadro central se torna uma grande tabela, chamada tabela fato, que cont�m, por vezes, milh�es ou bilh�es de linhas.

Por�m, os modelos dimensionais nem sempre s�o implementados em bases de dados relacionais. Existem no mercado bancos de dados multidimensionais (MDDBS), que armazenam informa��es em um formato diferente, frequentemente chamado de cubos. Os cubos s�o constru�dos de tal forma que, cada combina��o de atributos das dimens�es com uma m�trica, � calculado antecipadamente ou � calculado muito rapidamente.

Entretanto, a natureza de um banco de dados multidimensional tamb�m significa que n�o � poss�vel manipular volumes de dados extremamente grandes j� que uma transa��o de an�lise dos dados, com uma ferramenta OLAP (Online Analytical Processing), que envolva um grande volume de dados vai consumir grande quantidade de mem�ria ou simplesmente n�o se efetuar�. Al�m disso, o n�mero de atributos dimensionais armazenados em um cubo pode impactar o tempo de carga, o tamanho e o desempenho do cubo.

Nota: Ferramentas OLAP s�o ferramentas utilizadas para executar an�lises sobre os dados de data warehouses e data marts, com capacidade de visualizar as informa��es sob diferentes �ngulos e n�veis de agrupamento/detalhamento.

Uma das alternativas para solucionar estes problemas pode ser a implementa��o do modelo dimensional em um banco de dados relacional e, ap�s isto, utiliz�-lo como fonte para carga posterior de subconjuntos de dados nos cubos. Esta abordagem � muito utilizada em empresas que querem executar an�lises em subconjuntos de um grande conjunto de dados armazenados em um data warehouse. Quando esta abordagem � implementada, o data warehouse como um todo fica armazenado no banco de dados relacional, enquanto que partes ou segmentos deste data warehouse s�o copiadas e armazenadas em cubos, que s�o chamados de data marts. Estas arquiteturas b�sicas de implementa��o est�o representadas nas Figuras 2 e 3.

**Figura 2.** Data warehouse implementado em base relacional, acessado por ferramenta OLAP

**Figura 3.** Alternativa de implementa��o com data warehouse em base relacional e cria��o de data marts em banco multidimensional (cubos) para serem acessados pela ferramenta OLAP

Nesta parte do artigo ainda n�o iremos nos preocupar com as tecnologias de implementa��o f�sica dos modelos de dados, mas apenas analisaremos as etapas de modelagem necess�rias para atender qualquer tipo de implementa��o, seja em um banco relacional ou multidimensional.

Os passos para a modelagem

O processo de modelagem dimensional � composto por algumas etapas cujo objetivo � levantar e representar as necessidades de an�lise e de informa��es dos usu�rios de determinada �rea de neg�cios. A Tabela 1 apresenta uma vis�o geral deste processo. Nas se��es seguintes discutiremos cada uma destas etapas.

Passo	Perguntas a serem feitas para o usu�rio	Elementos a serem definidos no modelo
1	O que estamos avaliando?	Fatos ou m�tricas (sempre um valor num�rico).
2	Como ser�o avaliados ou analisados?	Dimens�es de neg�cios relacionadas �s m�tricas.
3	Qual o n�vel mais baixo de detalhe das informa��es?	Granularidade das informa��es em cada dimens�o.
4	Como se espera agrupar ou sumariar as informa��es?	Hierarquia de agrupamento das informa��es em cada dimens�o.

Tabela 1. Passos para a Modelagem Dimensional

Passo 1 � Definindo os fatos ou m�tricas

Este passo vai definir o que queremos avaliar no data warehouse/data mart, ou seja, os fatos. Estes fatos s�o os n�meros que ser�o medidos e analisados atrav�s das diferentes dimens�es de neg�cios (que ser�o definidas no passo 2). A sele��o dos fatos que ir�o compor o modelo do data warehouse � relativamente simples. Uma vez definida a �rea de neg�cios que estamos modelando, a lista de fatos a serem utilizados responde � quest�o: �O que estamos avaliando?�. Estes fatos s�o os n�meros com os quais o usu�rio lida. Para exemplificar todo o processo de modelagem utilizaremos um modelo para a �rea comercial. Nosso usu�rio pode ser um gerente comercial de uma rede de lojas que tem por necessidade avaliar, por exemplo, a quantidade de itens vendidos, o valor de venda, o custo de cada um dos itens e a margem produzida. Note que estes valores devem ser trazidos dos sistemas transacionais onde � mantida cada uma destas m�tricas. Nem sempre as m�tricas s�o originadas em um s� sistema. Por esta raz�o, � necess�rio bastante cuidado ao se definir os processos que far�o extra��o, transforma��o e carga (ETL) destes valores, dos sistemas transacionais para o data warehouse.

Em nosso exemplo da �rea comercial, o gestor quer analisar tamb�m, al�m das m�tricas realizadas, os valores que haviam sido planejados (devem ser trazidos provavelmente de um sistema de planejamento e or�amento), bem como valores calculados do planejado sobre o realizado.

Algumas das m�tricas poder�o ser calculadas durante o processo de extra��o, transforma��o e carga e ser�o armazenadas no data warehouse j� calculadas ou ent�o poder�o ser calculadas diretamente, em tempo de consulta, pelas ferramentas OLAP. Nesta etapa da modelagem, todas as m�tricas (calculadas ou trazidas da base transacional) ser�o tratadas da mesma forma.

Assim, em nosso exemplo, as m�tricas ou fatos que este usu�rio necessita avaliar s�o:

Valor da venda � realizado;
Valor da venda � previsto;
Quantidade de itens � realizada;
Quantidade de itens � prevista;
Pre�o m�dio de venda;
Custo m�dio;
Margem de venda;
% de varia��o entre o realizado e o planejado.

Passo 2 � Definindo as dimens�es de neg�cios

Ap�s termos definido as m�tricas que ser�o armazenadas no data warehouse/data mart, passamos a definir cada uma das dimens�es relacionadas �s m�tricas. Nesta etapa vamos perguntar ao usu�rio �Como as m�tricas ser�o analisadas?�, ou seja, sob quais dimens�es de neg�cio avaliaremos os fatos? Por exemplo, cada uma das m�tricas precisa ser analisada ao longo do tempo. Isto significa analisar a quantidade de itens vendidos por m�s, ou talvez at� mesmo por dia. Poderemos tamb�m comparar per�odos de vendas analisando, por exemplo, a quantidade de itens vendidos no �ltimo m�s em compara��o com o mesmo m�s no ano anterior. Atrav�s de sugest�es e exemplos, vamos dando �dicas� para que o usu�rio entenda o que estamos querendo identificar, ao mesmo tempo que ele vai nos informando suas necessidades de an�lise das informa��es.

Em nosso exemplo, as dimens�es de neg�cio a serem implementadas (conforme necessidades especificadas pelo usu�rio) ser�o:

Dimens�o Tempo: que indica os per�odos de tempo para a an�lise;
Dimens�o Produto: que indica quais produtos est�o relacionados com as m�tricas;
Dimens�o Geografia: que indica a regi�o geogr�fica onde se encontram as lojas que efetuam as vendas.

Agora temos que verificar se cada m�trica se relaciona com todas as dimens�es definidas, j� que cada conjunto de m�tricas deve ser analisado atrav�s do mesmo conjunto de dimens�es. Para isto, podemos perguntar se cada m�trica pode ser analisado ao longo de cada dimens�o, por exemplo: �Faz sentido analisar o valor das vendas por produto? E por loja? E ao longo do tempo?�.

Passo 3 � Definindo a granularidade das informa��es em cada dimens�o

Uma vez definidas as dimens�es de neg�cio atrav�s das quais as m�tricas ser�o analisadas, � importante saber qual o n�vel de detalhe, ou granularidade, mais baixo que ser� avaliado. Em nosso exemplo, podemos come�ar pela dimens�o Tempo. Podemos questionar o usu�rio da seguinte forma: �Qual o n�vel de detalhe desejado? Faz sentido avaliar a m�trica quantidade vendida por dia?�. Assim, para cada uma das m�tricas definidas, vamos identificar qual o n�vel mais baixo de detalhe que ser� armazenado no data warehouse. Se, para a dimens�o Tempo o n�vel mais baixo de detalhe for dia, ent�o todas as m�tricas dever�o ser obtidas com valores por dia. Para o nosso exemplo consideraremos o n�vel de granularidade mais baixo como sendo:

Dia: para a dimens�o Tempo;
Item de produto: para a dimens�o Produto;
Loja: para a dimens�o Geografia.

Assim, os processos de ETL que ir�o trazer as informa��es dos sistemas transacionais para o data warehouse devem faz�-lo no n�vel mais baixo de granularidade especificado para cada uma das dimens�es. Desta forma, para a m�trica valor da venda devemos trazer o valor de venda realizado para cada item de produto, em cada dia e em cada loja. A Tabela 2 mostra um subconjunto das informa��es necess�rias para se preparar o data warehouse do nosso exemplo.

Tempo (Dia)	Produto (Item)	Geografia (Loja)	Valor da venda (R$)	Quantidade de itens	Pre�o m�dio de venda (R$)	...
05/01/2004	L�pis n� 2 � Faver Carel	Loja 04	78,00	65	1,20	...
05/01/2004	L�pis n� 2 � Faver Carel	Loja 06	150,00	125	1,20	...
05/01/2004	Caneta Clic azul - fina	Loja 04	117,60	84	1,40	...
05/01/2004	Caneta Clic vermelha - fina	Loja 04	39,20	28	1,40	...
...	...	...	...	...	...	...
23/03/2004	Caneta Clic azul - fina	Loja 06	123,00	82	1,50	...
23/03/2004	Bloco recibo Jordel	Loja 12	132,50	53	2,50	...
...	...	...	...	...	...	...

Tabela 2. Exemplo de valores a serem carregados no data warehouse, de acordo com o n�vel de granularidade escolhido

Note que apesar do usu�rio desejar um determinado n�vel de granularidade, � importante saber se a informa��o est� dispon�vel neste n�vel de detalhe nos sistemas transacionais. Por exemplo, de nada adianta o usu�rio querer analisar as informa��es de vendas di�rias se os sistemas transacionais n�o t�m estas informa��es dispon�veis.

Como mostrado na Tabela 2, ser� preparada uma linha para cada loja, em cada dia com as vendas de cada item de produto e os valores somados ou calculados para cada m�trica. Por exemplo, na primeira linha temos, para o dia 5 de janeiro de 2004, do produto L�pis n� 2 Faver Carel, na Loja 04, o valor total das vendas, a quantidade total de itens vendidos e assim sucessivamente para as outras m�tricas.

Passo 4 � Definindo a hierarquia de agrupamento de informa��es

Os dados estar�o armazenados no data warehouse no n�vel de detalhe estabelecido, por�m, normalmente o usu�rio desejar� analisar agrupamentos destas informa��es como: �Qual o total de canetas vendidas, nas lojas do estado de S�o Paulo, no �ltimo semestre?�. Esta pergunta j� indica que deveremos nos preocupar com o agrupamento, ou sumariza��o das informa��es armazenadas no data warehouse. Para isto, � necess�rio ent�o definir quais as possibilidades de agrupamento das informa��es que o usu�rio deseja, especificando a hierarquia destes agrupamentos em cada uma das dimens�es de neg�cio.

Uma hierarquia que parece natural em nosso exemplo � a que se apresenta na dimens�o tempo. Meses normalmente s�o agrupados em bimestres ou trimestres, que por sua vez s�o agrupados em semestres e em anos. Apesar de ser natural, � importante saber o que o usu�rio necessita j� que alguns modelos de neg�cio requerem agrupamentos temporais diferentes e mesmo para uma hierarquia t�o natural quanto esta, ainda assim � necess�rio modelar o data warehouse para que seja poss�vel efetuar este tipo de agrupamento. Em nosso exemplo, vamos considerar as seguintes hierarquias:

Dimens�o Tempo: dia ‐ m�s ‐ semestre ‐ ano;
Dimens�o Produto: item de produto ‐ linha de produto ‐ categoria;
Dimens�o Geografia: loja ‐ cidade ‐ estado ‐ regi�o.

A vis�o l�gica do data warehouse

Com estas informa��es em m�os, podemos iniciar a modelagem do data warehouse/data mart, partindo de uma vis�o l�gica baseada nas informa��es obtidas com os usu�rios. Uma forma de representa��o bastante simples, por�m muito eficaz � a apresentada na Figura 4. Com este diagrama, � poss�vel discutir diretamente com o usu�rio e validar as informa��es obtidas.

At� o momento ainda n�o iniciamos realmente a modelagem da base de dados que ir� conter o data warehouse, por�m, todas as atividades realizadas at� agora s�o de extrema import�ncia para entender o modelo de neg�cios que iremos representar. � importante envolver os usu�rios finais na valida��o da vis�o que obtivemos at� este ponto pois, como em todos os tipos de sistemas, qualquer erro pode ser corrigido neste momento ainda com um custo muito baixo.

Na segunda parte deste artigo iremos discutir os dois esquemas mais utilizados na modelagem dimensional de data warehouses e data marts: o Star Schema e o Snowflake Schema com suas principais varia��es, dando continuidade ao exemplo aqui analisado.

**Figura 4.** Representa��o das informa��es a serem modeladas no data warehouse/data mart

Continue Artigo Modelagem de Data Warehouses e Data Marts � Parte II

Saiu na DevMedia!

Que JavaScript � esse?:
Apresentamos aqui o JavaScript na sua vers�o mais moderna. Ao acompanhar os cursos dessa s�rie voc� se sentir� � vontade para programar em Angular, React ou Vue.

Saiba mais sobre SQL ;)

Guia Completo de SQL:
Neste Guia Completo de SQL voc� encontrar� todo o conte�do que precisa para aprender sobre a SQL, linguagem de consulta estruturada utilizada por programadores e DBAs para a execu��o de consultas e comandos nos principais SGBDs do mercado.

Revista SQL Magazine Edi��o 13

:
Confira nesta edi��o da SQL Magazine como aprender UML na pr�tica e tamb�m veja a segunda parte do Mini curso: Construindo uma aplica��o em Java, e muito mais.

Bibliografia utilizada:

Isabel C. Italiano, Jo�o E. Ferreira, Osvaldo K. Takai � �Aspectos conceituais em data warehouse� � Relat�rio t�cnico RT-MAC-2001-08 � Departamento de Ci�ncia da Computa��o � Instituto de Matem�tica e Estat�stica � Universidade de S�o Paulo, 2001.
C. Adamson, M. Venerable � �Data Warehouse Design Solutions� � John Wiley & Sons, 1998.
Carlos Barbieri � �BI � Business Intelligence� � Axcel Books do Brasil Editora, 2001.

Confira outros conte�dos:

Por Devmedia Em 2007

Artigo SQL Magazine 13 - Modelagem de Data Warehouses e Data Marts � Parte 1

Este artigo tem por objetivo mostrar os detalhes que envolvem uma das t�cnicas utilizadas para a modelagem dos dados em data warehouses e tamb�m em data marts, a modelagem dimensional.