Criando um projeto de Data Mining com o Microsoft SQL Server 2005 Analysis Services

v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);}

Neste artigo iremos explorar os conceitos b�sicos de um projeto de Data Mining, incluindo um exemplo pr�tico utilizando o Microsoft SQL Server 2005 Analysis Services.

O que � Data Mining?

Data Mining � o conceito de �minera��o de dados�, ou seja, a an�lise de uma massa de dados originada de um banco de dados relacional ou at� mesmo de um Data Warehouse, utilizando algoritmos especiais com o objetivo de extrair o padr�o dos dados, gerando informa��es para os tomadores de decis�es de uma companhia. Este conhecimento pode ser apresentado de v�rias maneiras: agrupamentos, �rvores de decis�o, regras, entre outros.

Por exemplo, imagine uma empresa de varejo que necessita identificar o perfil de compradores de um determinado produto, para realizar uma campanha de Marketing. Com base no hist�rico de compra e no cadastro detalhado (com informa��es relevantes) dos seus clientes, estes algoritmos analisam a massa de dados e identificam padr�es e vari�veis que possam pr�-definir perfis de compradores. Estas vari�veis podem ser: sexo, faixa et�ria, renda, hobby, profiss�o, idade, enfim, isto ir� depender de cada cen�rio.

Este � apenas um exemplo, mas atualmente est� � uma t�cnica que diversas empresas utilizam para gerar informa��es que possam auxiliar a direcionar seus neg�cios.

Para entender melhor sobre Data Mining, voc� pode recorrer a diversas literaturas dispon�veis que abordam de forma mais detalhada esta metodologia, e tamb�m artigos espec�ficos na Internet.

Analysis Services

O Analysis Services (AS) � a ferramenta de Data Warehouse da Microsoft, que utiliza a tecnologia OLAP (Online Analytical Processing), espec�fica para opera��es de an�lise de grande volume de dados, onde o seu engine � preparado para organizar os metadados de forma a otimizar consultas e n�o transa��es, como � o casos dos bancos de dados relacionais, que usam o tecnologia OLTP (Online Transaction Prossecing). Al�m da cria��o de cubos, o Analysis Services tamb�m permite a cria��o de projetos de Data Mining.

Criando o seu primeiro projeto de Data Mining

Para criar seu primeiro projeto de Data Mining voc� utilizar� o Business Intelligence Development Studio, referenciado neste artigo e em outras literaturas como BIDS.

Como base de dados de exemplo, iremos utilizar o AdventureWorksDW, que � instalado opcionalmente com o SQL Server 2005. Se voc� n�o instalou os bancos de exemplo, voc� pode realizar o download e instalar na sua inst�ncia. Consulte o m�dulo de Dicas do meu blog.

Cen�rio do projeto: AdventureWorks � uma empresa que vende artigos esportivos. AdventureWorksDW � a base de Data Warehouse da empresa e a view vTargetMail possui informa��es sobre os clientes cadastrados que j� realizaram ou n�o alguma compra na empresa. Neste caso iremos identificar qual o perfil do publico alvo da empresa, ou seja, quais as caracter�sticas dos compradores, para que, por exemplo, a �rea de Marketing possa realizar uma a��o especifica.

Voc� pode utilizar o mesmo padr�o de nomenclatura aqui proposto para facilitar o entendimento e acompanhamento do projeto.

Para criar um novo projeto, siga os passos seguir:

Abra o BIDS.
Clique no menu File � New � Project.
Na janela New Project, selecione o template Analysis Services Project na janela do lado direito.
Defina um nome para o projeto, no campo Name: ProjMining. Clicando em Browse, no campo Location, voc� pode definir uma pasta onde ser�o armazenados os arquivos do seu projeto.
Clique em OK para confirmar a cria��o do seu projeto.

Figura 1 � Janela New Project

Em seguira ser� carregada a Janela Principal do BIDS, onde iremos utilizar os recursos de cria��o do Data Mining.

Figura 2 � Janela Principal do BIDS

O primeiro passo, � a cria��o do Data Source, que � respons�vel por realizar a conex�o com a fonte de dados, para acesso �s informa��es que ser�o analisadas.

Na janela Solution Explorer, clique com o bot�o direito em Data Sources � New Data Source.
Na janela de boas vindas do Data Source Wizard, clique em Next para continuar.
No passo Select how to define the connection, clique em New para criar uma nova conex�o.
Na janela Connection Manager, no campo Provider voc� deve informar qual o Driver da sua conex�o. Mantenha o padr�o: Native OLE DB\SQL Native Client.
Em Server name selecione o nome da inst�ncia de SQL Server instalado no seu computador.
No campo Select or enter a database name, selecione AdventureWorksDW.
Clique em OK para confirmar.

Figura 3 � Janela Connection Manager

De volta ao Data Source Wizard, sua conex�o aparecer� em Data Connections. Clique em Next.

Figura 4 � Janela Data Source Wizard

No passo Impersonation Information, clique em Next.
No passo Completing the Wizard, no campo Data Source name digite DS_AdventureWorksDW e clique em Finish.

O pr�ximo passo � criar um Data Source View, que nada mais � do que uma visualiza��o da sua estrutura de dados, onde voc� pode incluir apenas as tabelas e relacionamentos que voc� necessita para o seu projeto. Um Data Source View possui outros recursos, que podemos explorar em artigos futuros. Por enquanto, vamos focar em nosso objetivo que � criar uma estrutura de Mining.

Na janela Solution Explorer clique com o bot�o direito em Data Source Views � New Data Source View...
Na janela de boas vindas do Data Source View Wizard, clique em Next.
No passo Select a Data Source, voc� ir� selecionar o DS_AdventureWorksDW que criamos no anteriormente. Clique em Next.
No passo Select Tables and Views, voc� deve selecionar a view vTargetMail e clicar no bot�o �>�, transferindo a view de Available objects para Included objects como apresentado abaixo:

Figura 5 � Passo Select Tables and Views

Clique em Next para prosseguir.
Defina o nome do Data Source View: DSV_TargetMail.
Clique em Finish.

Voc� visualizar� o Data Source View com o objeto vTargetMail no detalhe. Voc� poderia adicionar outros objetos e definir seus relacionamentos, caso necess�rio.

Agora vamos ao ponto central do nosso projeto, a cria��o da estrutura de Minera��o.

Clique com o bot�o direito em Mining Structures � New Mining Structure.
No passo de boas vindas do Data Mining Wizard, clique em Next.
No passo Select the Definition Method, selecione a op��o From existing relational database or data warehouse. Clique em Next.
Em Select the Data Mining Technique, voc� pode escolher qual ser� o algoritmo utilizado para analisar a massa de dados. Voc� pode pesquisar melhor e testar outros m�todos futuramente. Para o nosso exemplo, selecione a op��o Microsoft Naive Bayes. Clique em Next.
Selecione o Data Source View que criamos anteriormente (DSV_TargetMail) e clique em Next.
No passo Specify Table Types, teremos apenas a view vTargetMail. Deixe marcada a op��o Case, e mantenha desmarcada a op��o Nested. Clique em Next.
Em Specify the Training Data voc� definir� quais as m�tricas para a an�lise da massa de dados:
- Marque o campo CustumerKey como campo chave, selecionando a coluna Key.
- Predictable � a informa��o que indica qual o objetivo da an�lise, ou seja, ser� o dado que define se o cliente � um comprador ou n�o. Neste caso, selecione o campo BikeBuyer na coluna Predictable. Na view vTargetMail, o valor para clientes que j� realizaram uma compra � 1. Caso deseje analisar as informa��es na view, voc� pode consultar atrav�s do Management Studio ou abrir o seu Data Source View no BIDS. Para isso clique com o bot�o direito na View vTargetMail, e clique em Explore Data.
- Input s�o os dados que ser�o analisados para identificar os padr�es que determinam o objetivo esperado. Em nosso exemplo, selecione como na coluna Input os campos BikeBuyer (comprador s/n), CommuteDistance (dist�ncia entre a casa e o trabalho), NumberCarsOwned (n�mero de carros) e NumberChildrenAtHome (quantidade de crian�as em casa). Clique em Next.

Figura 6 � Janela Specify the Training Data

No passo Specify Columns� Content and Data Type ser� definido qual o tipo de conte�do e o tipo de dado dos campos, para que o engine do Analysis possa analisar adequadamente as informa��es. Basicamente voc� pode distinguir entre listas pr�-definidas (estado, sexo, status), dados seq�enciais (idade, sal�rio), campos chaves, enfim, em uma pr�xima oportunidade podemos nos aprofundar mais neste assunto. Em caso de d�vidas, voc� pode clicar no bot�o Detect para que o AS identifique automaticamente os tipos. Para o sucesso do nosso exemplo, mantenha o Content Type da coluna Customer Key como Key e defina o Content Type dos outros campos como Discrete (indicado para listas pr�-definidas), como na figura abaixo.
Na coluna Data Type, mantenha o padr�o.
Clique em Next.

Figura 7 � Janela Specify Columns� Content and Data Type

Por fim, defina o nome da estrutura e do seu modelo de Mining. Para mantermos o padr�o, digite MS_BikeBuyer em Mining structure name e MM_BikeBuyer em Mining model name. Clique em Finish para concluir.

Para que possamos testar nosso projeto, ser� necess�rio realizar o processamento da estrutura e modelo de Mining:

Na janela Solution Explorer, clique com o bot�o direito em MS_BikeBuyer.dmm que est� em Mining Structures, e clique na op��o Process...
O BIDS ir� confirmar se voc� deseja realizar o rebuild e deploy do projeto, para que todos os metadados possam ser criados e a estrutura do Mining preparada para a an�lise da massa. Clique em Yes para prosseguir.

Na janela de Process Mining Structure, mantenha as configura��es padr�es e clique em Run.

Figura 8 � Process Mining Structure

Na sequ�ncia ser� apresentada a janela de progresso do processamento. Ao final ser� apresentada uma mensagem de sucesso, como na figura abaixo. Clique em Close.

Figura 9 � Janela Process Progress

Na janela Process Mining Structure clique novamente em Close.

Com isso conclu�mos a cria��o do nosso projeto de Data Mining. Agora vamos testar e visualizar o resultado da an�lise. Visualmente seu projeto deve estar similar a figura abaixo.

Figura 10 � Dependency Network

Se aparecer apenas o bal�o Bike Buyer, � porque houve algum problema durante o processo de cria��o, ent�o remova a Mining Structure MS_BikeBuyer.dmm e repita novamente todos os passos.

O Analysis Services identificou os padr�es na massa de dados com base nos campos informados, ressaltando os fatores que apontam o perfil dos compradores de Bicicletas da AdventureWorks.

Para entendermos melhor essa an�lise, vamos entrar nos detalhes das informa��es. Observando a aba Mining Model Viewer voc� pode identificar outras abas que permitem a navega��o entre os detalhes.

Voc� j� est� posicionado na aba Dependency Network, onde o AS demonstra que encontrou rela��o nos campos indicados para an�lise, ou seja, todos os clientes que j� realizaram alguma compra possuem um padr�o. Por exemplo, grande parte dos compradores mora pr�ximo ao trabalho, ou possuem apenas um filho, enfim, dados que s�o comuns entre os compradores podendo definir um perfil.

Clique na aba Attribute Profiles e observe as informa��es.

Figura 11 � Attribute Profiles

Aqui podemos observar algumas informa��es relevantes. A terceira coluna representa toda a massa de dados. A quarta coluna representa as caracter�sticas de clientes cadastrados que ainda n�o s�o compradores. E a quinta coluna representa as caracter�sticas dos compradores. Assim conclu�mos que:

Grande parte dos compradores mora pr�ximo do trabalho: Commute Distance = 0-1 Miles.
Geralmente os compradores n�o tem carro ou possuem at� dois carros. Acima desse n�mero existem poucas ocorr�ncias.
Grande parte dos compradores n�o tem filhos.
Tamb�m s�o poss�veis compradores pais que possuem at� dois filhos. Acima desse n�mero existem poucas ocorr�ncias.

As abas seguintes demonstram a mesma an�lise atrav�s de outras vis�es. Clique em Attribute Characteristics. Voc� pode modificar o par�metro Value para 0 (n�o compradores) e 1 (compradores).

Figura 12 � Attribute Characteristics

Agora clique em Attribute Discrimination. Nesta vis�o voc� pode realizar uma an�lise comparativa. Mude o par�metro Value para 1 e o par�metro Value 2 para 0.

Figura 13 � Attribute Discrimination

Pronto. Este � um projeto simples, apenas para estudo, mas que envolve todos os conceitos necess�rios para trabalhar com Data Mining utilizando o BIDS e Analysis Services. Voc� pode criar varia��es a partir desse modelo, onde o n�vel de detalhe e dificuldade ir� aumentar de acordo com a necessidade do seu projeto.

Este projeto est� dispon�vel para download no meu SkyDrive, em Publica\Analysis\ProjMining.zip. Acesse: http://ivandba.spaces.live.com.

Ivan Candido

ivandba@hotmail.com

Site: http://www.ivancandido.com
Blog: http://ivandba.spaces.live.com

Condi��es de uso desse material

Este documento pode ser utilizado individualmente por estudantes e profissionais que desejam desenvolver habilidades e adquirir conhecimento t�cnico em ferramentas Microsoft, n�o podendo ser publicado, distribu�do ou comercializado sem autoriza��o formal do autor.

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Ivan Em 2009

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso