Nos últimos 10 anos, houve uma sensível popularização dos projetos de Business Intelligence (BI) e dos conceitos envolvidos neste tipo de abordagem. Mas acredite: a grande maioria das técnicas que empregamos hoje é conhecida há muito mais tempo.

Mesmo assim, ainda há muita confusão a este respeito. E muitas vezes a falta de informação compromete o sucesso dos projetos de BI, seja por causa de um modelo mal definido ou por decisões inadequadas no escopo do projeto.

O objetivo deste artigo é expor os conceitos básicos relacionados à modelagem multidimensional e apresentar um estudo de caso.

Para que se destina o Modelo Multidimensional

Quando falamos em modelagem multidimensional, estamos nos referindo à definição de um modelo que se destina à análise de dados. No que diz respeito à análise de dados, o que se espera do modelo de dados é que:

  • Seja uma representação simples do modelo de negócios estudado;
  • Seja um modelo físico de fácil interpretação, de modo que usuários sem treinamento formal em TI possam entendê-lo;
  • Facilite a implementação física do modelo de modo a maximizar performance das consultas aos dados.

Portanto, no modelo multidimensional, deixamos de focar a coleta de dados para nos ocuparmos com a consulta aos dados. E esta é uma mudança radical de foco.

Observe que o modelo multidimensional é usado em sistemas cujas bases de dados são atualizadas periodicamente e em horários pré-agendados. Tradicionalmente sistemas de BI são atualizados apenas uma vez ao dia. Além disso, iremos apenas importar transações que foram coletadas e armazenadas por outros sistemas.

Isso não quer dizer que sistemas de BI trabalhem apenas com leitura de dados. Muitos coletam algum tipo de informação, como os sistemas de planejamento, onde os usuários inserem informações de orçamento, por exemplo. Mas, mesmo nestes casos, o volume de dados coletados é insignificante.

Em contrapartida, sistemas de BI se destinam a atender usuários da área de negócio que esperam extrair informações a partir dos dados coletados. Muitas vezes, milhares de transações são compiladas para se calcular um único indicador (ou métrica).

Portanto, via de regra, a coleta de dados não é o foco dos sistemas de BI. A consulta aos dados é sempre a prioridade e isso é um pré-requisito para a escolha do modelo multidimensional. E, na realidade, na grande maioria das vezes veremos um sistema que usa modelagem multidimensional funcionando como “cliente” de outro(s) sistema(s) que usa(m) modelagem relacional pura. Ele traz para um ambiente analítico as informações coletadas pelos sistemas transacionais.

A Figura 1 mostra uma representação dos ambientes de coleta e análise de dados, assim como o processo de transferência de dados, que chamamos de ETL (Extract, Transform, Load).

Representação dos ambientes de coleta e análise de dados
Figura 1. Representação esquemática dos ambientes de coleta e análise de dados

Nomenclatura

O primeiro mito que vamos comentar é em relação à própria expressão “modelagem multidimensional”. Quando falamos em modelo, pouco importa o tipo de sistema gerenciador de banco de dados (SGBD) que será usado no projeto, seja ele relacional ou multidimensional.

Pois bem. Para quaisquer fins práticos, o que chamamos de modelagem multidimensional é sinônimo de modelagem relacional em esquema estrela.

O método que vamos usar para estudar os requisitos de negócios e transformá-lo em um modelo de dados será muito semelhante, independente da preferência pessoal do arquiteto de dados em relação a SGBDs relacionais ou multidimensionais.

Sendo assim, tudo o que sabemos a respeito de modelagem relacional vale novamente para a modelagem multidimensional. Existem, naturalmente, pequenas exceções que caracterizam o esquema estrela, como descrito por Ralph Kimball, considerado por muitos um dos papas da modelagem multidimensional.

Na modelagem multidimensional, teremos novamente que identificar entidades, tabelas, atributos, chaves primárias e integridade referencial, por exemplo.

A principal diferença está em relação à normalização. E aqui temos outro mito. O modelo multidimensional usa sim normalização, mas considera apenas até a Segunda Forma Normal. Voltaremos a este ponto ao descrevermos as características técnicas do modelo.

...
Quer ler esse conteúdo completo? Tenha acesso completo