DW 2.0TM, a chegada de uma nova geração

Data Warehouse - armazém de dados - teve seu conceito introduzido como uma maneira de tratar dados operacionais segundo uma organização histórica, de modo a promover a análise dos mesmos sob diversas perspectivas de visualização e detalhamento, oferecendo assim, recursos para os processos decisórios de uma instituição.

Um Data Warehouse trata-se de um banco de dados que possui uma estrutura estratégica, definida com técnicas de modelagem multidimensional orientada a assuntos, que gera um modelo de simples entendimento e alta performance de acesso, garantindo a análise em múltiplas dimensões de visualização.

Sua definição envolve uma arquitetura que possui algumas camadas, como apresentado na ilustração 1.

19-07pic01.JPG
Ilustração
1 - Camadas da arquitetura de um ambiente de Data Warehouse

As fontes externas (bases operacionais) são os dados da instituição a serem analisados, chamados de dados operacionais; podem ser de qualquer espécie e quantidade como arquivos texto ou bancos de dados.

A Staging Área trata-se de um lugar intermediário entre as bases operacionais e o Data Warehouse; os usuários do sistema não têm acesso a essa camada.

A camada Data Warehouse reúne, numa estrutura estrela ou floco de neve, os dados que foram extraídos, transformados e carregados das bases operacionais.

A camada dos Data Marts permite acesso descentralizado aos dados; os Data Marts são subconjuntos do Data Warehouse e geralmente fornecem informações direcionadas a um departamento específico.

Um Data Warehouse não é um produto pronto para ser instalado em instituições, isso se dá pelo desenvolvimento do mesmo, que abrange profundo conhecimento dos casos de análise da instituição e envolvimento dos participantes desses casos. Assim, há a necessidade de levantamento de requisitos, através de entrevistas, além de análise, projeto, implementação e testes do ambiente construído. Há ainda, metodologias de desenvolvimento warehouse que cobrem as fases citadas.

No entanto, um fenômeno vem ocorrendo em detrimento da popularização dos Data Warehouses. Diversos vendedores e fabricantes têm assinado seus produtos como Data Warehouse, vendo em seu crescimento, uma oportunidade de negócio. Com isso, geram-se divergências sobre o que é ou não um Data Warehouse: produtos anunciam Data Warehouses integrados; Data Marts são nomeados como Data Warehouse; sistemas transacionais são chamados de Data Warehouse.

Inmon afirma que uma das causas é que o termo nunca foi registrado, portanto, qualquer um pode chamar qualquer coisa de Data Warehouse e propõe um novo conceito que estimula uma nova geração: DW 2.0TM.

DW 2.0TM propõe uma arquitetura evoluída, embora a definição permaneça a  mesma. A ilustração 2 apresenta a arquitetura da nova geração.

19-07pic02.JPG
Ilustração
2 – Arquitetura do DW 2.0TM

Uma das diferenças existentes entre as duas gerações é chamada ciclo de vida. O que é proposto por Inmon é a atribuição de um ciclo de vida aos dados de um DW, ou seja, dados podem envelhecer, dessa forma, no DW 2.0TM há uma divisão de setores de acordo com a idade dos dados, enquanto na antiga versão, não havia distinção.

Dados não estruturados são válidos para um Data Warehouse, isso que dizer que e-mails, notas, relatórios pessoais, conversas telefônicas, planilhas eletrônicas e afins, também reúnem informações relevantes a análises para uma instituição. O tratamento desses dados pode ser de várias formas: retalhos de texto, palavras ou frases editadas e textos selecionados. Busca-se também a integração entre os dados estruturados e os não estruturados.

Outra diferença entre a primeira e segunda geração de Data Warehouses é a necessidade de forte integração dos metadados no modelo. No DW 2.0TM, os metadados possuem sua própria estrutura e local.

Todo o trabalho da primeira geração de Data Warehouse, pode ser estendido com a arquitetura da nova geração naturalmente, como um processo evolutivo.

Conclusão

Este material buscou introduzir os conceitos de Data Wareuhose e a proposta de sua nova geração, DW 2.0TM.

A proposta de Inmon possui marca registrada, sua especificação não pode ser modificada por ninguém além de seus autores e arquitetos originais. Seu uso e divulgação poderão ser utilizados para fins não comerciais, o contrário, é estritamente proibido.

Bibliografia

INMON, Bill. DW 2.0 - Architecture for the Next Generation of Data Warehousing. Disponível em:

http://www.dmreview.com/article_sub.cfm?articleId=1051111.

ERICSON, Jim. Redefining Big Data. Disponível em:

http://www.dmreview.com/editorial/dmreview/print_action.cfm?articleId=1056336.