artigo SQL Magazine 03 - Informa��o, produtividade e rapidez. Descubra o Data Warehouse !

Transformar dados hist�ricos em conhecimento estrat�gico � um dos principais objetivos da tecnologia da informa��o nas organiza��es. O Data Warehouse (DW) � uma ferramenta que surgiu com esse prop�sito, trazendo a id�ia de centraliza��o das informa��es, visualiza��o multi-dimensional dos dados e descoberta de padr�es de comportamento para dar aos administrador mais agilidade na tomada de decis�es. Veja a defini��o de W.H.Inmon, considerado um guru do assunto:

�Data Warehouse � uma cole��o de dados orientada por assuntos, integrada, variante no tempo e n�o vol�til, que tem por objetivo dar suporte aos processos de tomada de decis�o.�

O Data Warehouse pode ser aplicado em empresas que possuem informa��es descentralizadas e com defici�ncia na organiza��o operacional para totaliza��es, tornando o processo de decis�o bastante �rduo. O DW realiza consultas em uma �nica fonte de dados consolidada, atrav�s de um banco de dados preparado para armazenar conhecimentos sobre o neg�cio da empresa.

Como funciona?

O Data Warehouse � um sistema de suporte a decis�o, composto por um conjunto de ferramentas que centralizam, armazenam, gerenciam e extraem informa��es hist�ricas da empresa, em um formato �mastigado� para o tomador de decis�o.

Em geral, o Data Warehouse � armazenado em um banco separado da base de dados operacional. Em sistemas desse tipo, os bancos mant�m dados hist�ricos, gerando um grande volume de dados e consultas complexas. A separa��o evita a perda de performance no processo operacional da empresa. Por exemplo, imagine um supermercado no hor�rio de pico, com dezenas de caixas registradoras conectadas ao banco de dados transacional e algu�m tentando extrair um extenso relat�rio de an�lise do comportamento da empresa. Outro ponto � que as bases DW possuem objetivo e estrutura diferentes da base transacional, tornando a cria��o de um banco de dados exclusivo uma necessidade.

O Data Warehouse � �alimentado� periodicamente com informa��es da base operacional. Os dados s�o exibidos para o usu�rio atrav�s de ferramentas de apoio a decis�o, como o OLAP (On-Line Analytical Processing) e o Data Mining, que permitem a visualiza��o multi-dimensional do resultado e a proje��o de comportamentos, respectivamente.

Arquitetura de um Data Warehouse

O Data Warehouse pode ter uma estrutura centralizada ou distribu�da em camadas. No modelo centralizado, o poder de processamento � maior e os processos de busca de informa��o devem ser otimizados. Veja um exemplo na figura 1:

Exemplo de modelo centralizado

Figura 1: Exemplo de modelo centralizado

A arquitetura em camadas � mais flex�vel e permite consultas simult�neas sem muita perda de performance. Na primeira camada disponibilizamos o servidor que atender� a maior parte das consultas, com baixo volume de dados. Nas demais camadas temos os servidores com volume maior de dados, que atender�o uma quantidade menor de usu�rios (figura 2).

Exemplo de arquitetura em camadas

figura 2. Exemplo de arquitetura em camadas

Data Warehouses em Departamentos

Para diminuir o custo e o tempo total de implanta��o de um Data Warehouse, podemos divid�-lo em partes menores, distribu�das por departamentos ou �reas de atua��o da empresa. A �divis�o� de um DW � conhecida como Data Mart.

As diferen�as entre Data Mart e Data Warehouse s�o apenas em rela��o ao tamanho e ao escopo do problema a ser resolvido. Por ser direcionado a uma �rea espec�fica da empresa, o planejamento e an�lise de um Data Mart s�o mais f�ceis de gerenciar.

Existem dois tipos de implementa��o de Data Marts: top-down e bottom-up. Top-down � quando a empresa cria um Data Warehouse e depois divide-o em Data Marts, gerando pequenos bancos orientados por assunto (ou departamentos). Bottom-up � quando a empresa inicia um Data Mart e expande o projeto para outras �reas.

Por apresentar prazo e custo menores, a implanta��o bottom-up tem sido muito utilizada pelas empresas. Em m�dia, o tempo de implanta��o de um Data Mart fica em torno de quatro meses. No Data Warehouse o tempo estimado pode passar de 1 ano.

Etapas de um Data Warehouse (ou Data Mart)

A constru��o de um DW passa por quatro fases principais:

Levantamento � Avalia, junto aos tomadores de decis�o, os conhecimentos que desejam ser adquiridos. Esta � a fase mais importante.
Modelagem Multidimensional - Nesta forma de modelagem representamos a id�ia central e suas dimens�es. Identificamos as quest�es principais e definimos como os dados ser�o armazenados.
ETL (Extract, Transform and Load) � Extra��o dos dados nos sistemas corporativos e transforma��o, para carga no Data Warehouse.
Visualiza��o do Resultado - Ferramentas para intera��o com o usu�rio, atrav�s de interfaces amig�veis.

Como exemplo, vamos acompanhar os passos para constru��o de um mini Data Mart de uma concession�ria.

Levantamento das informa��es e identifica��o das necessidades

Uma rede de concession�rias possui um sistema transacional para controle de vendas. Nas entrevistas realizadas com os gerentes, foram identificadas algumas necessidades de informa��o:

Acompanhamento da evolu��o das vendas e do valor total arrecadado por concession�ria;
Defini��o das lojas que atraem o maior n�mero de clientes;
Descoberta do perfil dos clientes;
Identifica��o do per�odo do ano que apresenta maior volume de vendas, em rela��o � loja e ao perfil do cliente.

Modelagem Multidimensional: Fato, Dimens�es e Medidas

A representa��o dos dados

A representa��o dos dados em um Data Warehouse � estruturada como um cubo, transmitindo a id�ia de m�ltiplas dimens�es. Na figura 3, verificamos as dimens�es PRODUTO, TEMPO e GEOGRAFIA. A inclus�o de dados no DW passa uma id�ia de crescimento na largura, comprimento e profundidade do cubo.

A constru��o do modelo come�a pela defini��o de uma tabela denominada Fato. Em seguida, definimos seus elementos relacionados, que s�o tabelas denominadas Dimens�o. Na interse��o das dimens�es s�o obtidas as Medidas, que s�o as medi��es num�ricas da tabela Fato.

Veja um exemplo de modelagem multidimensional a seguir: no centro vemos a entidade Fato e nas pontas as Dimens�es, ou seja, os elementos que participam de um Fato. Essa representa��o � conhecida como Esquema Estrela (Star Schema):

esquema estrela

Na modelagem, podemos identificar mais de uma tabela Fato. Neste caso, as tabelas podem compartilhar dimens�es, mesmo que essas dimens�es estejam em Data Marts separados.

Podemos ainda utilizar dimens�es normalizadas. Essa varia��o � denominada esquema �Snowflake� e sua principal vantagem � a economia de espa�o, pois o volume de dados armazenado � menor. A principal desvantagem � a perda de performance no processo.

perda de performance no processo

Para identificar as tabelas Fato e Dimens�o, devemos responder algumas perguntas:

Qual a ideia central no exemplo da concession�ria?

Venda de autom�veis

O que est� sendo medido?

Quantidade de autom�veis vendidos

Valor total das vendas

O que precisamos avaliar sobre essas vendas?

Qual produto (autom�vel) foi vendido

Quando (dia, m�s, trimestre, ano)

Onde (concession�ria, regi�o)

Quem comprou (faixa et�ria, faixa salarial/renda, sexo)

Seguindo a modelagem multidimensional, os dados ser�o armazenados da seguinte forma:

armazenagem dos dados

Representa��o no esquema estrela:

Terceiro Passo: ETL (Extract, Transform e Load)

O pr�ximo passo � a transfer�ncia e transforma��o dos dados existentes nos sistemas corporativos para uma base de dados independente, dispon�vel apenas para carga e consulta. Este processo � conhecido como ETL � Extra��o, Transforma��o e Carga.

Para efetuar a ETL utilizamos linguagens de programa��o ou ferramentas espec�ficas, como o Oracle Warehouse Builder (www.oracle.com) ou o Cognos DecisionStream (www.cognos.com) [figura].

Em geral, o processo envolve dois passos: extra��o e tratamento dos dados do sistema de origem, e carga no sistema destino (Data Warehouse). Uma observa��o � a possibilidade dos sistemas de origem e destino estarem em plataformas diferentes, exigindo um tratamento espec�fico na transforma��o dos dados.

O primeiro passo � o desenvolvimento de uma metodologia, selecionando o assunto inicial e as dimens�es abordadas. Em seguida, � feita a an�lise de cada tabela destino separadamente, facilitando o processo de identifica��o das tabelas e campos de origem. Por �ltimo, os dados selecionados s�o inseridos nas respectivas tabelas fato e dimens�o.

Devido ao grande volume de registros, a primeira carga geralmente � feita por etapas, como extra��o de um lote de registros filtrados por m�s ou ano. S�o executados v�rios processos de extra��o e carga sucessivamente, at� que todos os dados do banco de origem tenham sido carregados no Data Warehouse. Terminada a fase de importa��o, � estabelecida a periodicidade de atualiza��o das tabelas.

periodicidade de atualiza��o das tabelas

Quarto Passo: Visualiza��o

Uma das ferramentas utilizadas na recupera��o dos dados de um DW � o OLAP, que tem como caracter�stica principal a visualiza��o multi-dimensional dos dados. Existem quatro visualiza��es b�sicas:

Drill down
Drill up ou Roll up
Slice
Dice

Drill down e Drill up movimentam as vis�es ao longo das hierarquias, enquanto Slice e Dice s�o opera��es de navega��o apenas. A aplica��o dessas quatro vis�es sobre um modelo-multidimensional cria uma vis�o no formato de cubo, conhecida como Decision Cube. Na caixa �Vis�es OLAP� voc� pode conferir alguns exemplos.

			2002
			1o Trimestre			2o Trimestre
			Jan	Fev	Mar	Abr	Mai	Jun
Loja 1	Auto A	Homens	20	20	30	15	10	15
	Auto A	Mulheres	10	20	20	10	30	20
	Auto B	Homens	5	10	10	30	30	30
	Auto B	Mulheres	10	20	30	50	50	10
Loja 2	Auto A	Homens	10	10	10	30	10	5
	Auto A	Mulheres	10	20	20	15	15	20
	Auto B	Homens	20	30	30	30	30	30
	Auto B	Mulheres	10	10	20	50	50	40

Drill down: vis�o detalhada

		2002
		1o Trimestre	2o Trimestre
Loja 1	Auto A	120	100
Loja 1	Auto B	85	200
Loja 2	Auto A	80	95
Loja 2	Auto B	120	230

Drill up: vis�o sumarizada

			Loja 1	Loja 2
2002	1o Trimestre	Auto A	120	80
	1o Trimestre	Auto B	85	120
	2o Trimestre	Auto A	100	95
	2o Trimestre	Auto B	200	230

�Girando o cubo� , temos um exemplo da vis�o Dice.

			2002
			1o Trimestre			2o Trimestre
			Jan	Fev	Mar	Abr	Mai	Jun
Loja 1	Auto A	Homens	20	20	30	15	10	15
Loja 1	Auto B	Homens	5	10	10	30	30	30

No exemplo Slice, o cubo � �fatiado�, apresentando apenas dos dados.

Minera��o de Dados

Al�m do OLAP, o Data Warehouse trabalha com o conceito de ferramentas para minera��o de dados (Data Mining). Esses aplicativos utilizam t�cnicas para reconhecer padr�es nos dados do DW, disponibilizando ao administrador �proje��es� comportamentais. Normalmente, esses padr�es est�o �escondidos� nas informa��es hist�ricas, sendo praticamente imposs�veis de serem descobertos por ferramentas de consulta tradicionais. Os sistemas de Data Mining utilizam t�cnicas avan�adas, como intelig�ncia artificial, para minera��o desses padr�es.

Existem v�rios cases cl�ssicos de sucesso no uso deste conceito. Um deles pertence a uma empresa americana de venda de roupas por cat�logo. Ap�s a aplica��o de um Data Mining sobre a base hist�rica, descobriu-se diversos padr�es de compra, como o caso de uma gravata que era mais vendida quando um tipo de cal�a e sapatos estavam dispon�veis no mesmo cat�logo, em um determinado per�odo do ano. A partir da descoberta desses padr�es, a empresa explorou esses nichos, aumentando sua lucratividade.

O objetivo da Unimed Londrina era maximizar a gest�o dos custos com prestadores de servi�o e cooperados. O obst�culo era a falta de confiabilidade em relat�rios gerenciais e a demanda reprimida de informa��es estrat�gicas.

Estas defici�ncias criavam entraves para a identifica��o de padr�es de comportamento dos geradores do custo, como as doen�as mais onerosas, que demandam mais consultas, exames, interna��es e cirurgias. Era dif�cil acompanhar o progresso sazonal dos custos (por exemplo, o �ndice de aumento de gripe durante o inverno) ou mesmo identificar a utiliza��o indiscriminada dos usu�rios do plano, bem como solicita��es indiscriminadas de exames por parte dos prestadores de servi�o.

Al�m disso, a Unimed precisava de agilidade para atender as solicita��es e as freq�entes mudan�as exigidas pela Ag�ncia Nacional de Sa�de, que regula a opera��o de planos de sa�de.

A constru��o de um Data Warehouse foi iniciada por um Data Mart na �rea de custos concentrando informa��es de doen�as, procedimentos (consultas, exames, interna��es, cirurgias) e atendimento realizado pelos prestadores de servi�os credenciados (hospitais, cl�nicas e laborat�rios) e m�dicos cooperados.

Assim, foi criado o Datamed, voltado para a �rea de gest�o de custos. O principal usu�rio � a controladoria que assessora a diretoria executiva, fornecendo informa��es estrat�gicas para tomada de decis�es, atrav�s de relat�rios e gr�ficos.

O Oracle foi escolhido para armazenar os dados do DataMart. O Oracle Designer foi utilizado para a modelagem de dados, implementa��o e manuten��o do banco, e o Oracle Discoverer para processos OLAP (On-line Analytical Processing). Os principais benef�cios adquiridos foram:

Efici�ncia na resposta para quest�es contingenciais geradas pelo mercado concorrente e �rg�os reguladores;
Informa��es estrat�gicas para melhoria da gest�o de custos;
Identifica��o de necessidades para novos planos.

Hoje, o Data Warehouse � uma realidade na Unimed Londrina, permitindo a empresa tomar decis�es estrat�gicas mais rapidamente.

De acordo comAndr� Portella,Diretor da CommitConsultores, desenvolvedora do DataMed, o Exemplo de ferramenta ETL seria como na imagem a seguir, que trata do Cognos DecisionStream:

Cognos DecisionStream

Conclus�o

Antes de um Data Warehouse virar a solu��o para a falta de informa��es gerenciais na empresa, � preciso avaliar se os �sistemas da casa� podem atender as necessidades atuais, j� que os projetos de DW s�o caros e demoram para ser implantados.

Os custos de um Data Warehouse s�o muitos, mas as vantagens, apesar de reais, podem ser menos percept�veis. Como quantificar o acesso r�pido a dados e relat�rios confi�veis? O retorno do investimento de um Data Warehouse ser� medido atrav�s do uso que os administradores derem �s informa��es obtidas.

Em resumo, n�o adianta ter um �armaz�m cheio� se o administrador n�o souber transformar a informa��o em conhecimento e canaliz�-lo em a��es. Mais importante do que a tecnologia � um perfeito entendimento do neg�cio, do que est� sendo feito e do que � preciso, para que o ganho de produtividade deixe de ser apenas uma promessa.

Confira outros conte�dos:

Por Silvio Em 2010

Oferta ativa

ATÉ

50 % OFF

Aprenda a programar de verdade
com o método que já formou +100 mil alunos.

Garantir desconto