Artigo SQL Magazine 10 - Introdução ao Data Mining

Aten��o: por essa edi��o ser muito antiga n�o h� arquivo PDF para download.
Os artigos dessa edi��o est�o dispon�veis somente atrav�s do formato HTML.

Clique aqui para ler todos os artigos desta edi��o

Minera��o de Dados: Introdu��o e Aplica��es��

�

Bancos de dados relacionais s�o respons�veis por armazenar e recuperar dados de forma eficiente. No entanto, somente estas atividades n�o garantem a continuidade dos neg�cios. Nos dias de hoje, cada vez mais � necess�rio que se tire um proveito maior dos dados. Surge a tr�ade dado, informa��o e conhecimento. O dado � algo bruto, � a mat�ria-prima da qual podemos extrair informa��o. Informa��o � o dado processado, com significado e contexto bem definido. O computador, em ess�ncia, serve para transformar dados em informa��es. Por fim, o conhecimento � o uso inteligente da informa��o, � a informa��o contextualizada e utilizada na pr�tica. Dessa forma, a qualidade da informa��o sustenta o conhecimento.

Os bancos relacionais, quando bem projetados, permitem a extra��o de diversas informa��es usando SQL. O mecanismo � simples: elabora-se um problema, � realizado um mapeamento para a linguagem de consulta, e esta consulta � submetida ao SGBD. Observe que esse processo resolve quest�es que necessariamente devem ser definidas, ou seja, as informa��es extra�das s�o respostas a uma consulta previamente estruturada. No entanto, dados armazenados podem esconder diversos tipos de padr�es e comportamentos relevantes que a princ�pio n�o podem ser descobertos utilizando-se SQL. Al�m disso, por mais que o analista seja criativo, ele ir� apenas conseguir elaborar diversas quest�es de forma que se tenham resultados pr�ticos no final. Neste contexto est� inserida a aplicabilidade da minera��o de dados.

Para exemplificar, considere um cadastro com aproximadamente 500.000 clientes de uma loja de roupas. Atrav�s do uso de t�cnicas de minera��o foi descoberto que 7% desses clientes s�o casados, est�o na faixa et�ria compreendida entre 31 e 40 anos e possuem pelo menos dois filhos. Uma campanha de marketing direcionada a esse grupo de clientes poderia ser realizada objetivando o aumento no consumo de produtos infantis. Note que inicialmente n�o foi elaborada uma quest�o do tipo �identifique os clientes casados com faixa et�ria entre 31 e 40 anos e que possuem pelo menos dois filhos�. O pr�prio processo de minera��o identificou a pergunta e a resposta.

Assim, minera��o de dados pode ser definida como o processo automatizado de descoberta de novas informa��es a partir de grandes massas de dados. A minera��o de dados � uma �rea extensa, interdisciplinar e envolve o estudo de diversas t�cnicas (ver figura 1).

Minera��o de

Dados

Banco de

Dados

Estat�stica

Outras

Disciplinas

Intelig�ncia

Artificial

Otimiza��o

Visualiza��o

�

Figura 1

�

Nota

A minera��o de dados n�o ocorre somente em bancos de dados relacionais. Hoje em dia pode-se trabalhar com diversas fontes tais como textos, arquivos de log, data warehouses, entre outras.

�� Para que o conceito seja melhor entendido, vejamos o seguinte exemplo (retirado do livro DataMining: T�cnicas e Aplica��es para o Marketing Direto, Fernanda Cristina Naliato do Amaral, Ed. Berkeley, 2001): tomemos uma base de dados de empr�stimos pessoais. O tipo de conhecimento que se deseja extrair � como identificar os mutu�rios negligentes. Uma vez consultado um analista de dados, este considerou que os dados mais representativos do conhecimento desejado s�o fornecidos pelos atributos sal�rio, d�bito e regularidade de pagamento. De posse dessas informa��es, pode-se formar o gr�fico da figura 2, que mostra o conjunto de dados usado, composto de 14 amostras.

�

Imagem

� Figura 2

�

�� Cada ponto no gr�fico representa um mutu�rio a quem foi dado um empr�stimo por um banco particular, em algum momento no passado. No eixo horizontal, tem-se o sal�rio do mutu�rio; no vertical, seu d�bito mensal (hipoteca, pagamento de carro, etc).

�� Os dados foram classificados em duas classes: os mutu�rios representados por X, que est�o em d�bito com o pagamento dos empr�stimos, e os representados por O, em dia com o banco. A partir do gr�fico da figura 2, tenta-se definir padr�es onde as pessoas consideradas negligentes estejam separadas das pessoas n�o negligentes.

�� O padr�o linear t representa apenas parte da realidade, uma vez que nem sempre ele � verdadeiro. Ao examinarmos a figura 2, chegamos a seguinte regra:

�

�� Se sal�rio>t, ent�o mutu�rio � bom pagador.

�

�� Note que a regra nem sempre � verdadeira: visualmente, podemos notar que existem casos em que mesmo um cliente com um sal�rio > t n�o � um bom pagador. A proposta � encontrar o padr�o que retrata de forma mais fiel o conhecimento apresentado nos dados. Para isso, al�m do padr�o linear, existem outras t�cnicas mais complexas, que podem ser visualizadas na figura 3.

�

Imagem

Figura 3

�

KDD e Minera��o de Dados

Em diversos livros e artigos, a minera��o de dados � vista como parte de um processo maior, denominado KDD - Knowledge Discovery in Database - que significa descoberta de conhecimento em bases de dados. Este processo � dividido em seis etapas e envolve duas grandes fases: prepara��o de dados (destaque em azul) e sua minera��o (destaque em verde) (ver figura 4).

�

Imagem

Figura 4

�

O processo de KDD � iniciado atrav�s da compreens�o do dom�nio da aplica��o e o estabelecimento dos objetivos a serem obtidos. Nesta fase, as quest�es em potencial para a minera��o s�o identificadas. Dependendo do problema a ser minerado e da massa de dados dispon�vel, haver� a escolha do tipo de t�cnica a ser trabalhada. A quest�o a ser minerada e a pr�pria t�cnica a ser trabalhada definem qual parte da massa de dados inicial vai ser utilizada e, para isso, selecionada.

No pr�ximo passo � realizada a limpeza atrav�s de um pr�-processamento dos dados. Nesta fase s�o eliminadas eventuais incompletudes, problemas de tipagem, repeti��o de registros etc.

�

Nota

Alguns estudos mostram que a etapa de limpeza dos dados pode tomar at� 80% do tempo necess�rio para todo o processo de descoberta de conhecimento. Ela tamb�m � considerada uma das etapas mais importantes para o sucesso do processo como um todo.

�

Os dados pr�-processados passam ainda por uma transforma��o com o objetivo de facilitar seu uso pelas t�cnicas de minera��o. Nesta fase, o uso de data warehouse (DW) torna-se bastante �til, pois nessas estruturas o pr�-processamento dos dados j� existe (para mais informa��es sobre data warehouse, leia o artigo de Patr�cia Barbalho, na edi��o 3 da revista). Ou seja, as informa��es j� est�o consolidadas num formato mais estat�stico e menos transacional.

Dando continuidade ao processo, chega-se � fase de minera��o, a qual come�a com a escolha dos algoritmos a serem aplicados. Essa escolha depende do objetivo do processo de KDD. Ao final do processo, o sistema que efetuou a minera��o poder� gerar relat�rios das descobertas, que passam pela interpreta��o dos analistas envolvidos. A partir das informa��es identificadas � poss�vel utiliz�-las, transformando-as assim em conhecimento.

Alguns elementos que fornecem apoio ao processo de KDD s�o:

�

�Data warehouse: transforma e consolida informa��es inicialmente localizadas em diferentes plataformas e bases de dados. Ele facilita o processo KDD porque realiza um pr�-processamento dos dados visando integridade, consist�ncia e limpeza dos mesmos;

�Ferramentas de visualiza��o de dados: facilitam a interpreta��o dos resultados gerados pelo processo KDD. Uma ferramenta bem projetada evidencia, de maneira clara e resumida, a informa��o extra�da (ler os artigos sobre as ferramentas FMDB e TreeMiner, nesta edi��o);

�Estat�stica: est� presente em diversos algoritmos de data mining;

�Intelig�ncia artificial: muitos algoritmos da IA s�o utilizados para descobrir padr�es no meio da massa de dados hist�rica.

Tarefas e T�cnicas em Minera��o de Dados

Descobrir padr�es e tend�ncias escondidos em grandes massas de dados n�o � um processo trivial. Em minera��o de dados este processo envolve o uso de diversas tarefas e t�cnicas. As tarefas s�o classes de problemas, que foram definidas atrav�s de estudos na �rea. As t�cnicas s�o grupos de solu��es (algoritmos) para os problemas propostos nas tarefas. Cada tarefa apresenta v�rias t�cnicas, e algumas t�cnicas podem ser utilizadas para solucionar tarefas diferentes.

As classes de tarefas b�sicas s�o:

�

�Classifica��o: consiste em examinar as caracter�sticas de um objeto (ou situa��o) e atribuir a ele uma classe pr�-definida. Ou seja, esta tarefa objetiva a constru��o de modelos que permitam o agrupamento de dados em classes. Essa tarefa � considerada preditiva, pois uma vez que as classes s�o definidas, ela pode prever automaticamente a classe de um novo dado. Por exemplo, uma popula��o pode ser dividida em categorias para avalia��o de concess�o de cr�dito com base em um hist�rico de transa��es de cr�ditos anteriores. Em seguida, uma nova pessoa pode ser enquadrada, automaticamente, em uma categoria de cr�dito espec�fica, de acordo com suas caracter�sticas.

�

�Associa��o: estuda um padr�o de relacionamento entre itens de dados. Por exemplo, uma an�lise das transa��es de compra em um supermercado pode encontrar itens que tendem a ocorrerem juntos em uma mesma compra (como caf� e leite). Os resultados desta an�lise podem ser �teis na elabora��o de cat�logos e layout de prateleiras de modo que produtos a serem adquiridos na mesma compra fiquem pr�ximos um do outro. Essa tarefa � considerada descritiva, ou seja, ela � usada para identificar padr�es em dados hist�ricos.

�

�Clusteriza��o (segmenta��o): as informa��es podem ser particionadas em classes de elementos similares. Neste caso, nada � informado ao sistema a respeito das classes existentes. O pr�prio algoritmo descobre as classes a partir das alternativas encontradas na base de dados, agrupando assim um conjunto de objetos em classes de objetos semelhantes. Por exemplo, uma popula��o inteira de dados sobre tratamento de uma doen�a pode ser dividida em grupos baseados na semelhan�a de efeitos colaterais produzidos; acessos a web realizados por um conjunto de usu�rios em rela��o a um conjunto de documentos podem ser analisados para revelar clusters ou categorias de usu�rios. Essa tarefa � considerada descritiva.

�

�Estimativa (regress�o): objetiva definir um valor (num�rico) de alguma vari�vel desconhecida a partir dos valores de vari�veis conhecidas. Exemplos de aplica��es s�o: estimar a probabilidade de um paciente sobreviver dado o resultado de um conjunto de diagn�sticos de exames; predizer quantos carros passam em determinado ped�gio, tendo alguns exemplos contendo informa��es como: cidades mais pr�ximas, pre�o do ped�gio, dia da semana, rodovia em que o ped�gio est� localizado, entre outros. Essa tarefa � considera preditiva.

�

Nota: Classifica��o versus clusteriza��o

Na tarefa de classifica��o, os registros s�o subdivididos e colocados em classes pr�-definidas. J� na clusteriza��o, n�o h� necessidade que se definam essas classes, pois estas s�o identificadas durante o processo, de forma autom�tica. Neste caso, os registros s�o agrupados com base em similaridades. Na clusteriza��o, n�o h� atributo especial. A import�ncia de cada atributo em geral � considerada equivalente � dos demais.

�

Entre as principais t�cnicas, podemos destacar as �rvores de classifica��o, redes neurais, algoritmos gen�ticos, algoritmo de Bayes, entre outros.

Ser�o apresentados quatro exemplos associados �s tarefas acima. Para cada um deles ser� utilizada uma t�cnica espec�fica.

�

Um exemplo envolvendo classifica��o

O objetivo desta tarefa � construir um modelo que seja capaz de gerar classifica��es para novos objetos ou novos dados (tarefa preditiva). Para isso, devem ser considerados dois tipos de atributos que caracterizam o objeto: atributos preditivos, cujos valores ir�o influenciar no processo de determina��o da classe; e atributos objetivos, que indicam a classe a qual o objeto pertence. Assim, a classifica��o visa descobrir algum tipo de relacionamento entre os atributos preditivos e objetivos.

A principal t�cnica utilizada para a tarefa de classifica��o � a �rvore de classifica��o (classification tree). Vejamos um exemplo que utiliza esta t�cnica: imagine uma aplica��o que analisa dados de clientes, visando a aprova��o ou n�o (atributo objetivo) de cr�dito para empr�stimo pessoal. Neste banco de dados, existem pessoas adimplentes e inadimplentes sendo cada classe caracterizada por algum tipo de padr�o. Neste processo, os clientes do banco de dados cujo campo resultado venham a ter o valor n�o, representar�o os inadimplentes. Para poder preencher esse campo, ser�o consideradas as caracter�sticas dos clientes (atributos preditivos) existentes no banco. Normalmente, um analista indica quais s�o os atributos relevantes para a predi��o � neste exemplo, os atributos preditivos s�o cargo e tempo. Observe que � um exemplo meramente ilustrativo e que num processo real outros atributos tamb�m deveriam ser considerados. O processo pode ser dividido em duas fases:

�

�Fase I: um modelo � constru�do, descrevendo um conjunto pr�-determinado de classes (neste caso, SIM ou N�O). Em seguida, um conjunto de treinamento � analisado por um algoritmo de classifica��o, que gera como sa�da um modelo baseado numa �rvore de classifica��o (ver figura 5).�

�

Imagem

Figura 5

�

��Fase II: o modelo gerado pela fase I � utilizado para classifica��o. Depois disso, � realizado um teste de acur�cia e se esta for aceit�vel, as regras poder�o ser utilizadas para a classifica��o de novos casos (ver figura 6).

��

�� Imagem

��Figura 6

�

NOTA: �rvore de Classifica��o

�� A t�cnica �rvore de classifica��o tem esse nome por se tratar, de fato, de uma �rvore de decis�o � um formato comum de representa��o de modelos SE-ENT�O. A representa��o gr�fica de uma �rvore de decis�o lembra a de uma pir�mide invertida. Por exemplo, para o modelo gerado anteriormente, podemos ter a representa��o visual da figura 7. Cada caminho poss�vel em uma �rvore de decis�o � chamado de regra de decis�o (decision rule).

�

Figura 7

�

NOTA

�� Os algoritmos utilizados em data mining (incluindo os algoritmos de constru��o de �rvores de classifica��o) s�o complexos e envolvem matem�tica, estat�stica e muitas vezes intelig�ncia artificial. Para maiores informa��es sobre a constru��o desses algoritmos consulte as refer�ncias indicadas no final deste artigo.

�

BOX: Aplica��o de Classifica��o no Marketing Direto

�� Vejamos um bom exemplo de como a t�cnica de �rvore de classifica��o pode ser �til. Imagine uma empresa que quer aumentar a venda de telefones celulares. Com isto, temos:

�

1)�� Atrav�s do hist�rico de compradores da empresa, pode-se criar duas classes: i) pessoas que j� compraram pelo menos um telefone celular e ii) pessoas que nunca compraram este tipo de aparelho.

2)�� Em seguida, cria-se um modelo contendo atributos preditivos (tais como classe social, estilo de vida, regi�o demogr�fica, entre outros). Com este modelo, define-se um conjunto de treinamento contendo dados de compradores e n�o-compradores de celular;

3)�� Gera-se a �rvore de classifica��o. Ap�s esse passo, a empresa poder� identificar novos clientes como potenciais compradores (ou n�o) de celular, e de tempos em tempos formar uma base de clientes que devem receber mala-direta ou mailing sobre promo��o de celulares.

�

�� Al�m da �rvore de classifica��o, a classifica��o Bayes tamb�m se destaca com uma das t�cnicas utilizadas para resolver esta tarefa. A classifica��o Bayes utiliza classifica��es estat�sticas baseadas no teorema de Bayes (http://en.wikipedia.org/wiki/Bayes%2527_theorem). Para maiores informa��es, consulte as refer�ncias indicadas no final deste artigo.

Veremos agora um exemplo pr�tico de utiliza��o de �rvores de classifica��o utilizando o aplicativo Weka. Esta ferramenta � implementada em Java e est� dispon�vel para download em http://www.cs.waikato.ac.nz/~ml/weka/index.html. A ferramenta trabalha com diversas t�cnicas de data mining.

�

NOTA

�� A Weka � composta de dois pacotes: i) ferramentas para manipula��o interativa de algoritmos de data mining; ii) classes Java que encapsulam esses algoritmos. Dessa forma, � poss�vel utilizar essas classes para embutir os algoritmos de data mining em programas escritos em Java � o desenvolvedor pode criar seu pr�prio data mining explorer!

�

A ferramenta pode ser utilizada de duas formas: atrav�s de linha de comando ou de uma interface gr�fica. Ao iniciar, escolha a op��o Explorer para entrar na interface gr�fica (figura 8). A tela principal � apresentada na figura 9. Maiores detalhes sobre o uso da ferramenta atrav�s de linha de comando podem ser obtidos na documenta��o que acompanha o produto.

�

Imagem
Figura 8

�

O objetivo deste exemplo � gerar uma �rvore que auxilie na tomada de decis�o entre jogar ou n�o jogar t�nis a depender das condi��es clim�ticas. Para este exemplo, utilizamos a tabela weather.arff disponibilizada pela pr�pria ferramenta. Para selecionar o arquivo, clique no bot�o Open File. O conte�do deste arquivo pode ser visualizado na listagem 1. Neste exemplo, os atributos outlook, temperature, humidity e windy ser�o preditivos, e o atributo play ser� objetivo. Neste caso, o atributo objetivo especifica apenas duas classes: YES e NO, que indicam se o tempo est� bom ou n�o para jogo.

�

@relation weather

�

@attribute outlook {sunny, overcast, rainy}

@attribute temperature real

@attribute humidity real

@attribute windy {TRUE, FALSE}

@attribute play {yes, no}

�

@data

sunny,85,85,FALSE,no

sunny,80,90,TRUE,no

overcast,83,86,FALSE,yes

rainy,70,96,FALSE,yes

rainy,68,80,FALSE,yes

rainy,65,70,TRUE,no

overcast,64,65,TRUE,yes

sunny,72,95,FALSE,no

sunny,69,70,FALSE,yes

rainy,75,80,FALSE,yes

sunny,75,70,TRUE,yes

overcast,72,90,TRUE,yes

overcast,81,75,FALSE,yes

rainy,71,91,TRUE,no

�

Listagem 1

��

NOTA

�� ARFF (Attribute-Relation File Format) � um formato padr�o de arquivos texto, utilizado para representar datasets. Para saber como transformar uma tabela para o formato ARFF, consulte a p�gina http://www.cs.waikato.ac.nz/~ml/weka/arff.html. A ferramenta WEKA tamb�m l� bases de dados atrav�s de JDBC.

�

No destaque 1 da figura 9 vemos os atributos da tabela. Clique sobre cada atributo para visualizar como ele influencia no resultado total da tabela (destaque 2 da figura 9).

�

Imagem �

�

Figura 9

�

Para gerar a �rvore de classifica��o, clique na aba classify. Tendo feito isto, clique no bot�o Choose e selecione o algoritmo a ser utilizado (destaque 1 da figura 10). Neste exemplo, usaremos o J4.8 (figura 11). O atributo classificador (atributo objetivo) � selecionado como mostrado no destaque 2 da figura 10. Por �ltimo, clique no bot�o Start � a �rvore de classifica��o gerada pode ser visualizada no destaque 3 da figura 10. A partir de agora, a �rvore pode ser usada para identificar novos casos. Por exemplo, se tivermos uma condi��o clim�tica como a seguir:

�

outlook: rainy;

temperature: 80;

humidity: 65;

Windy: False.

�

Seguindo a �rvore de classifica��o, temos que o dia ser� bom para jogo. Veja a representa��o gr�fica da �rvore na figura 12. Para obter esse gr�fico, clique com o bot�o inverso do mouse sobre o item trees.J48, gerado dentro do Result List, e selecione a op��o Visualize Tree.

�

Nota

�� O algoritmo J4.8 � a implementa��o da ferramenta Weka para a t�cnica C4.5 decision tree (um tipo de �rvore de classifica��o). A ferramenta oferece tamb�m implementa��es para outras t�cnicas de classifica��o, tais como Naive Bayes e M5.

�

� Imagem

Figura 10

�

Figura 11

�

Figura 12

Um exemplo envolvendo associa��o

Os problemas de associa��o s�o solucionados atrav�s da t�cnica de regra de associa��o. Existem diversos algoritmos baseados nessa t�cnica: apriori, DHP, ABS, sampling, dentre outros.

Genericamente, uma regra de associa��o � representada pela nota��o X?Y (X implica em Y), onde X e Y s�o conjuntos de itens distintos. Neste caso, um item � representado por um dos conceitos existentes no dom�nio da aplica��o. O objetivo desta t�cnica � representar, com determinado grau de certeza, uma rela��o existente entre o antecedente e o conseq��nte de uma regra de associa��o. A associa��o � uma tarefa descritiva, ou seja, ela visa identificar padr�es em dados hist�ricos.

Imagine um banco de dados contendo milhares de registros de transa��es de compras. Para o nosso exemplo consideraremos 10 transa��es desse banco de dados (ver tabela 1).

�

IDTRANSA��O	ITENS COMPRADOS
1	caf�, leite, manteiga, p�o
2	milho, morango, p�o
3	caf�, leite, farinha, cerveja
4	biscoito, caf�, carne, leite, presunto, vinho
5	ado�ante, biscoito, peixe, queijo, vinho
6	ado�ante, caf�, leite, p�o
7	biscoito, milho, presunto, tomate
8	caf�, mel, leite, macarr�o
9	frango, mel, tomate
10	biscoito, caf�, cerveja, leite, refrigerante

Tabela 1

�

O objetivo aqui � saber se determinado produto X implica na compra do produto Y. Esta implica��o � avaliada atrav�s de dois fatores: suporte e confian�a.

�

Considere a regra caf� ? leite.

�

O suporte de uma regra representa o percentual das transa��es em que tal regra aparece. No exemplo, existem 10 transa��es. Note que os itens caf� e leite aparecem juntos em 60% das transa��es (transa��es 1, 3, 4, 6, 8 e 10).

�

Considere agora a regra biscoito ? vinho.

�

Os itens biscoito e vinho aparecem juntos em apenas 20% das transa��es (transa��es 4 e 5).�

A regra caf� ? leite possui 60% de suporte e a regra biscoito ? vinho possui 20% de suporte. Quando o suporte for baixo, a regra pode n�o ser relevante uma vez que aparece apenas em uma pequena parte das transa��es.

J� o fator confian�a, ao inv�s de considerar todas as transa��es, trabalha apenas com as que possuem o antecedente da regra. Assim, a confian�a � calculada dividindo-se o n�mero de vezes em que o conseq�ente da regra aparece pela quantidade dessas transa��es. Por exemplo: o item caf� aparece seis vezes na base de dados de transa��o (transa��es 1, 3, 4, 6, 8 e 10). Para a regra caf� ? leite, a confian�a � de 100%, ou seja, em todas as compras de caf�, h� a compra de leite.

J� o item biscoito aparece quatro vezes na base de dados de transa��o (transa��es 4, 5, 7 e 10). Para a regra biscoito ? vinho, a confian�a � de 50%, j� que as transa��es 7 e 10 n�o cont�m vinho. Isto significa que uma em cada duas transa��es contendo biscoito tamb�m cont�m vinho.

Um algoritmo de extra��o de regras de associa��o deve gerar regras que possuam suporte e confian�a especificados pelo usu�rio. Observe que as regras podem ser compostas por um ou mais itens. Dependendo do tamanho da base de dados e dos fatores de suporte e confian�a, in�meras regras s�o geradas. Essas regras devem ser avaliadas pelo usu�rio especialista, para que somente as mais relevantes possam ser utilizadas na tomada de decis�o.

�

BOX � Uso de associa��o para incrementar vendas

�� Tendo a regra a seguir:

�

�� {cerveja, X } => {batatas fritas}

�

Podemos concluir que:

�

a)�� Cerveja como antecedente: O analista pode descobrir quais produtos perder�o vendas se o estoque de cerveja acabar, ou se a venda de cervejas for interrompida (neste caso, batatas).

b)�� Cerveja como antecedente e batatas como conseq�ente: Pode ser usado para visualizar quais produtos (neste exemplo, X) podem ser vendidos com cerveja para incrementar a venda de batatas!

�

Vejamos um exemplo de utiliza��o de regras de associa��o com a ferramenta Weka. Neste caso, utilizaremos a tabela weather.nominal.arff. Para gerar as regras de associa��o, clique na aba Associate. Voc� perceber� que o algoritmo apriori j� aparece previamente selecionado (na �rea Associator). A implementa��o deste algoritmo na ferramenta Weka apresenta algumas particularidades:

�

�O algoritmo tenta gerar dez regras de associa��o;

�O valor de confian�a default � de 90%;

�O valor de suporte m�nimo come�a com 100%, e vai diminuindo 5% at� que 10 regras sejam formadas, ou que o valor de suporte chegue a 10% (o que acontecer primeiro);

�As regras geradas s�o ordenadas de acordo com o valor de confian�a.

�O algoritmo trabalha apenas com valores categ�ricos nominais (strings); portanto, se voc� possui uma tabela com valores num�ricos, ser� necess�rio convert�-los em categorias. Observe que o arquivo weather.nominal.arff � uma vers�o transformada do arquivo weather.arff.� Neste arquivo, por exemplo, os valores num�ricos do campo temperature foram convertidos para hot, mild e cool.

�

�� Obs: Para configurar os par�metros, clique sobre o nome do algoritmo apriori, na �rea Associator.

�

�� Para iniciar o processo, clique no bot�o Start. Feito isto, s�o geradas dez regras de associa��o, apresentadas no destaque da figura 13. Vamos analisar o resultado:

�

�O s�mbolo => faz a divis�o entre o antecedente e o consequente; Por exemplo, na regra 1 temos que humidade normal (humidity=normal) e tempo sem vento (windy=false) implicam em um dia bom para jogo (play=yes). Ou seja, esses tr�s valores em conjunto ocorrem com bastante freq��ncia;

�

�O n�mero que aparece antes do s�mbolo => indica o suporte da regra. Por exemplo, a regra 1 ocorre quatro vezes � aproximadamente 28,6%, j� que a tabela possui um total de catorze registros;

�

�O n�mero que aparece no final da regra indica quantas vezes o consequente aparece para cada ocorr�ncia do antecedente. Ou seja, na regra 1 temos que, das quatro ocorr�ncias de humidity=normal e windy=false, temos quatro resultados play=Yes. Ou seja, a confian�a � de 100%. De fato, as dez regras apresentam confian�a de 100%;

�

�O n�mero entre parenteses � o valor efetivo da confian�a, ou seja, 100% (1).

�

As regras de associa��o podem ser utilizadas por um analista para gera��o de novos conhecimentos. Por exemplo, podemos concluir com a regra 1 que, independente de outras vari�veis clim�ticas, um dia com humidade normal e sem vento sempre � um bom dia para jogar t�nis.

�

Figura 13

�

Um exemplo envolvendo clusteriza��o

A tarefa de clusteriza��o � descritiva, ou seja, ela visa identificar padr�es em uma massa de dados. A principal diferen�a entre a classifica��o e a clusteriza��o � que nesta �ltima as classes n�o s�o previamente definidas. A id�ia � que o algoritmo de clusteriza��o identifique automaticamente comportamentos similares em uma base de dados, dividindo a massa de informa��o em clusters. Ap�s o processo de clusteriza��o, o analista deve estudar os padr�es identificados a fim de determinar se eles podem ser transformados em conhecimento estrat�gico.

A figura 14 representa, hipoteticamente, os dados de uma tabela mapeados para um espa�o bidimensional. Uma t�cnica de clusteriza��o poderia identificar tr�s clusters nessa tabela, conforme mostrado na figura 15. Observe que a clusteriza��o n�o responde porqu� os padr�es existem, ela apenas os identifica.

�

Imagem

Figura 14

�

Imagem

Figura 15

�

As t�cnicas de clusteriza��o mais populares s�o:

�

�Particionamento: O algoritmo mais conhecido para esta t�cnica � o K-means. Basicamente, o particionamento divide o dataset em grupos, chamados clusters. A t�cnica � baseada no seguinte princ�pio:

�

1)�� O dataset � tratado como um vetor, e cada informa��o � considerada um ponto vetorial (como na figura 14). Dessa forma, o algoritmo trabalha com dist�ncias entre os pontos � ou seja, um conjunto de pontos pr�ximos ser� considerado um cluster. Para plotar os dados como pontos vetoriais e calcular a dist�ncia entre eles � usada uma fun��o de dist�ncia. As fun��es de dist�ncia mais utilizadas s�o a fun��o Euclidiana e a fun��o Manhattan. Para maiores informa��es sobre essas fun��es, consulte a refer�ncia indicada ao final do artigo.

�

2) � necess�rio definir o n�mero de clusters que ser�o criados. Esse n�mero � chamado K, por isso o nome K-means. Como exemplo, vamos definir o n�mero de clusters como 3. O algoritmo inicia com uma divis�o aleat�ria da matriz em 3 clusters (figura 16).

�

3) Em seguida, o algoritmo plota um ponto chamado centroid no meio (mean) de cada cluster. Veja o exemplo da figura 17.

�

Imagem

Figura 16

�

Imagem

Figura 17

�

4)� Em seguida, os centroids s�o reposicionados de acordo com sua dist�ncia em rela��o aos grupos de pontos mais pr�ximos (figura 18a). Com o centroid reposicionado, os clusters s�o novamente calculados (figura 18b). Em seguida, os centroids s�o novamente recalculados (figura 18c) e esse processo � repetido at� que os clusters estejam bem definidos (figura 18d). Observe que, nessa t�cnica, a qualidade de defini��o dos clusters ser� melhor � medida que as �nuvens� de pontos estiverem bem agrupadas.

�

Imagem

Figura 18

�

�Hierarquia: O algoritmo mais conhecido � o HAC. Essa t�cnica trabalha de duas formas: i) divisivo: come�a com um cluster �nico e vai particionando-o em clusters menores, num processo iterativo; ii) aglomerativo: faz justamente o contr�rio: come�a de partes indivis�veis e vai se agrupando em clusters maiores. O resultado � uma �rvore de grupos (chamada dendograma), como mostrado na figura 19. A figura 20 exibe a diferen�a entre os algoritmos aglomerativos e divisivos.

�

Imagem

Figura 19

��

�� Imagem

��Figura 20

�

Na ferramenta Weka, os algoritmos de clusteriza��o podem ser acessados atrav�s da aba Cluster. O algoritmo que implementa a t�cnica k-means � chamado SimpleKMeans, e o algoritmo que implementa a t�cnica de hiearquia � chamado CobWeb. N�o entraremos em detalhes, pois um exemplo pr�tico de clusteriza��o pode ser visto na mat�ria Explorando visualmente informa��es em grandes bases de dados utilizando a ferramenta FMDB, publicada nesta edi��o. Maiores informa��es sobre o uso da ferramenta Weka para clusteriza��o podem ser obtidos em sua documenta��o.

Um exemplo envolvendo estimativa

�

A estimativa (tamb�m conhecida como regress�o) � considerada uma tarefa preditiva - seu objetivo � prever um valor num�rico desconhecido a partir de alguns atributos conhecidos, utilizando uma massa de dados hist�rica como modelo. Por exemplo, tendo um banco de dados de im�veis, podemos prever o valor do aluguel de um novo im�vel baseado em fatores como localidade, dimens�o, seguran�a, entre outros.

As t�cnicas mais comuns de estimativa s�o baseadas nos mesmos m�todos da classifica��o, ou seja, utilizam �rvores de decis�o. Em outras palavras, a id�ia b�sica � a gera��o de modelos que possam estimar o valor (num�rico) de determinado atributo. Exemplos de algoritmos de estimativa s�o: M5 e CART.

Vamos ao exemplo pr�tico na ferramenta Weka. Utilizaremos o arquivo baskball.arrf, dispon�vel no website da revista. Esse arquivo foi obtido do endere�o http://prdownloads.sourceforge.net/weka/datasets-numeric.jar, que disponibiliza um jarfile contendo 37 problemas de regress�o. No website da ferramenta podem ser obtidos outros datasets de exemplo.

A tabela baskball cont�m dados de atletas de basquete. Os campos s�o: assist�ncia por minuto, altura, tempo em quadra, idade e pontos por minuto. A Listagem 2 mostra parte deste arquivo. O objetivo do exemplo � gerar um modelo para prever a altura de um determinado jogador tendo em m�os as demais informa��es.

�

@relation baskball

�

@attribute assists_per_minute real

@attribute height integer

@attribute time_played real

@attribute age integer

@attribute points_per_minute real

�

@data

0.0888,201,36.02,28,0.5885

0.1399,198,39.32,30,0.8291

0.1107,196,35.22,25,0.4799

0.2521,183,31.73,29,0.5735

0.1007,193,28.81,34,0.6318

0.1067,196,35.6,23,0.4326

...

Listagem 1.

�

Clique na aba Classify. O algoritmo utilizado ser� o M5P (figura 21), que � baseado na gera��o de �rvores de classifica��o.

O pr�ximo passo � escolher o atributo objetivo (altura do jogador); lembre-se que o objetivo da estimativa � prever o valor de atributos num�ricos � portanto, o atributo objetivo deve ser num�rico. Para isso, selecione o atributo de acordo com o destaque 1 da figura 21. Em seguida, clique em Start. O resultado pode ser visualizado no destaque 2 da figura 21.

�

Imagem �

Figura 21

�

Para visualizar a �rvore de decis�o clique com o bot�o inverso do mouse sobre o item trees.M5P, gerado dentro do Result List, e selecione a op��o Visualize Tree.

Para exemplificar, um jogador com as caracter�sticas assists-per-minute = 0,19 e time-played = 34 tem uma altura prevista de 1.88 (regra 4). A fun��o para a regra 4 �:

�

height = (-104.3935 * assists_per_minute) + (0.0352 * time_played) + 206.8226

��

Conclus�o

Neste artigo vimos que o crescente ac�mulo de dados nas corpora��es muitas vezes esconde informa��es relevantes. Neste cen�rio, foram apresentados a import�ncia da minera��o de dados e o processo (KDD) do qual ela faz parte. Por fim, foram vistas algumas t�cnicas de minera��o juntamente com exemplos did�ticos e reais, facilitando assim o entendimento.

As t�cnicas apresentadas neste artigo s�o as mais b�sicas no processo de data mining. Existem diversas t�nicas mais complexas, tais como redes neurais, algoritmos gen�ticos, indu��o, dedu��o, entre outras. Contudo, os m�todos apresentados neste texto s�o os mais populares, e servem para resolver a maioria dos problemas prim�rios de descoberta de conhecimento.

Espero que tenham gostado do assunto. Ele � bastante amplo e diversas �reas podem obter benef�cios com seu uso. At� a pr�xima!

Refer�ncias

��A survey of data mining and knowledge discovery software tools� -� Michael Goebel and Le Gruenwald

��The Data Mining Industry Coming of Age � Gregory Piatetsky Shapiro � IEEE Intelligent Systems vol 14 � nov/dec 1999 � pg. 32-34

��Livro: Sistemas de Banco de Dados: Fundamentos e Aplica��es. Elmasri & Navathe.

��Livro: Sistemas Inteligentes: Fundamentos e Aplica��es. Solange de Oliveira Rezende.

��Livro: Data mining: t�cnicas e aplica��es para o marketing direto. Fernanda Cristina Naliato do Amaral.

��Livro: Data mining: Practical Machine Learning Tools and Techniques with java implementations. Ian H. Witten, Eibe Frank.

��Books on-line do SQL Server.

��Apostila de Data mining � Universidade Estadual Paulista.

��Investiga��o de regress�o no processo de minera��o de dados. Daniel Gomes Dosualdo. Disserta��o de mestrado. USP � S�o Carlos.

��Visualiza��o de Opera��es de Jun��o em Sistemas de Bases de Dados para Minera��o de Dados. Maria Camila Nardini Barioni. Disserta��o de mestrado. USP � S�o Carlos.

��Computer Aided Mining � Marcelo A. Bittencourt. Disserta��o de mestrado. UFF � Universidade Federal Fluminense.

��Processo de extra��o de conhecimento de bases de dados. Autores: Solange de Oliveira Rezende e Cl�udio Alex Jorge da Rocha.

��http://www.cs.sfu.ca/~han/DM_Book.html

��http://www.cs.waikato.ac.nz/~ml/weka/index.html

��http://www.microsoft.com/technet/prodtechnol/sql/2000/maintain/dmperf.mspx

��http://www.mlnet.org

��http://www.ics.uci.edu/~mlearn

��www.acm.org/sigkdd

��http://www.the-data-mine.com

�

DOWNLOAD: www.sqlmagazine.com.br/sql10/download.asp�

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Reinaldo Em 2008

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Artigo SQL Magazine 10 - Introdu��o ao Data Mining

Artigo da Revista SQL Magazine -Edi��o 10.

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Perguntas frequentes

Nossos casos de sucesso