Criando um projeto de Data Mining com o Microsoft SQL Server 2005 Analysis Services

Neste artigo iremos explorar os conceitos básicos de um projeto de Data Mining, incluindo um exemplo prático utilizando o Microsoft SQL Server 2005 Analysis Services.

Neste artigo iremos explorar os conceitos básicos de um projeto de Data Mining, incluindo um exemplo prático utilizando o Microsoft SQL Server 2005 Analysis Services.

 

O que é Data Mining?

 

Data Mining é o conceito de “mineração de dados”, ou seja, a análise de uma massa de dados originada de um banco de dados relacional ou até mesmo de um Data Warehouse, utilizando algoritmos especiais com o objetivo de extrair o padrão dos dados, gerando informações para os tomadores de decisões de uma companhia. Este conhecimento pode ser apresentado de várias maneiras: agrupamentos, árvores de decisão, regras, entre outros.

Por exemplo, imagine uma empresa de varejo que necessita identificar o perfil de compradores de um determinado produto, para realizar uma campanha de Marketing. Com base no histórico de compra e no cadastro detalhado (com informações relevantes) dos seus clientes, estes algoritmos analisam a massa de dados e identificam padrões  e variáveis que possam pré-definir perfis de compradores. Estas variáveis podem ser: sexo, faixa etária, renda, hobby, profissão, idade, enfim, isto irá depender de cada cenário.

Este é apenas um exemplo, mas atualmente está é uma técnica que diversas empresas utilizam para gerar informações que possam auxiliar a direcionar seus negócios.

Para entender melhor sobre Data Mining, você pode recorrer a diversas literaturas disponíveis que abordam de forma mais detalhada esta metodologia, e também artigos específicos na Internet.

 

Analysis Services

 

O Analysis Services (AS) é a ferramenta de Data Warehouse da Microsoft, que utiliza a tecnologia OLAP (Online Analytical Processing), específica para operações de análise de grande volume de dados, onde o seu engine é preparado para organizar os metadados de forma a otimizar consultas e não transações, como é o casos dos bancos de dados relacionais, que usam o tecnologia OLTP (Online Transaction Prossecing). Além da criação de cubos, o Analysis Services também permite a criação de projetos de Data Mining.

 

Criando o seu primeiro projeto de Data Mining

 

Para criar seu primeiro projeto de Data Mining você utilizará o Business Intelligence Development Studio, referenciado neste artigo e em outras literaturas como BIDS.

 

Como base de dados de exemplo, iremos utilizar o AdventureWorksDW, que é instalado opcionalmente com o SQL Server 2005. Se você não instalou os bancos de exemplo, você pode realizar o download e instalar na sua instância. Consulte o módulo de Dicas do meu blog.

 

Cenário do projeto: AdventureWorks é uma empresa que vende artigos esportivos. AdventureWorksDW é a base de Data Warehouse da empresa e a view vTargetMail possui informações sobre os clientes cadastrados que já realizaram ou não alguma compra na empresa. Neste caso iremos identificar qual o perfil do publico alvo da empresa, ou seja, quais as características dos compradores, para que, por exemplo, a área de Marketing possa realizar uma ação especifica.

 

Você pode utilizar o mesmo padrão de nomenclatura aqui proposto para facilitar o entendimento e acompanhamento do projeto.

 

Para criar um novo projeto, siga os passos seguir:

 


Figura 1 – Janela New Project


Em seguira será carregada a Janela Principal do BIDS, onde iremos utilizar os recursos de criação do Data Mining.

 


Figura 2 – Janela Principal do BIDS

 

O primeiro passo, é a criação do Data Source, que é responsável por realizar a conexão com a fonte de dados, para acesso às informações que serão analisadas.

 

 


Figura 3 – Janela Connection Manager

 

 


Figura 4 – Janela Data Source Wizard

 

 

O próximo passo é criar um Data Source View, que nada mais é do que uma visualização da sua estrutura de dados, onde você pode incluir apenas as tabelas e relacionamentos que você necessita para o seu projeto. Um Data Source View possui outros recursos, que podemos explorar em artigos futuros. Por enquanto, vamos focar em nosso objetivo que é criar uma estrutura de Mining.

 


Figura 5 – Passo Select Tables and Views

 

 

 

Você visualizará o Data Source View com o objeto vTargetMail no detalhe. Você poderia adicionar outros objetos e definir seus relacionamentos, caso necessário.

 

 

Agora vamos ao ponto central do nosso projeto, a criação da estrutura de Mineração.

 


Figura 6 – Janela Specify the Training Data

 

 

 


Figura 7 – Janela Specify Columns’ Content and Data Type

 

 

 

Para que possamos testar nosso projeto, será necessário realizar o processamento da estrutura e modelo de Mining:

 


Figura 8 – Process Mining Structure

  

 

 


Figura 9 – Janela Process Progress

 

 

 

Com isso concluímos a criação do nosso projeto de Data Mining. Agora vamos testar e visualizar o resultado da análise. Visualmente seu projeto deve estar similar a figura abaixo.

 


Figura 10 – Dependency Network

 

 

Se aparecer apenas o balão Bike Buyer, é porque houve algum problema durante o processo de criação, então remova a Mining Structure MS_BikeBuyer.dmm e repita novamente todos os passos.

 

O Analysis Services identificou os padrões na massa de dados com base nos campos informados, ressaltando os fatores que apontam o perfil dos compradores de Bicicletas da AdventureWorks.

Para entendermos melhor essa análise, vamos entrar nos detalhes das informações. Observando a aba Mining Model Viewer você pode identificar outras abas que permitem a navegação entre os detalhes.

 

Você já está posicionado na aba Dependency Network, onde o AS demonstra que encontrou relação nos campos indicados para análise, ou seja, todos os clientes que já realizaram alguma compra possuem um padrão. Por exemplo, grande parte dos compradores mora próximo ao trabalho, ou possuem apenas um filho, enfim, dados que são comuns entre os compradores podendo definir um perfil.

 

Clique na aba Attribute Profiles e observe as informações.

 


Figura 11 – Attribute Profiles

 

Aqui podemos observar algumas informações relevantes. A terceira coluna representa toda a massa de dados. A quarta coluna representa as características de clientes cadastrados que ainda não são compradores. E a quinta coluna representa as características dos compradores. Assim concluímos que:

 

 

As abas seguintes demonstram a mesma análise através de outras visões. Clique em Attribute Characteristics. Você pode modificar o parâmetro Value para 0 (não compradores) e 1 (compradores).

 


Figura 12 – Attribute Characteristics

 

 

Agora clique em Attribute Discrimination. Nesta visão você pode realizar uma análise comparativa. Mude o parâmetro Value para 1 e o parâmetro Value 2 para 0.

 


Figura 13 – Attribute Discrimination

 

 

 

Pronto. Este é um projeto simples, apenas para estudo, mas que envolve todos os conceitos necessários para trabalhar com Data Mining utilizando o BIDS e Analysis Services. Você pode criar variações a partir desse modelo, onde o nível de detalhe e dificuldade irá aumentar de acordo com a necessidade do seu projeto.

 

Este projeto está disponível para download no meu SkyDrive, em Publica\Analysis\ProjMining.zip. Acesse: http://ivandba.spaces.live.com.

 

 

Ivan Candido

ivandba@hotmail.com

Site: http://www.ivancandido.com
Blog: http://ivandba.spaces.live.com


Condições de uso desse material

 

Este documento pode ser utilizado individualmente por estudantes e profissionais que desejam desenvolver habilidades e adquirir conhecimento técnico em ferramentas Microsoft, não podendo ser publicado, distribuído ou comercializado sem autorização formal do autor.

Artigos relacionados