Artigo da SQL Magazine 26 - Data mining e a descoberta de associa��es em dados

Clique aqui para ler todos os artigos desta edi��o

Data mining e a descoberta de associa��es em dados

Andrei Alencastro, Gustavo Semaan e Carlos Rodrigo Dias

Data mining, ou minera��o de dados, corresponde � extra��o autom�tica ou semi-autom�tica de padr�es ou modelos a partir dos dados armazenados em uma base de dados. Nesse contexto, um padr�o � um evento, ou conjunto de eventos, que ocorre com uma certa freq��ncia na base de dados e um modelo corresponde � estrutura que descreve, de forma resumida, estes dados. Para que a minera��o de dados obtenha sucesso, os padr�es e modelos obtidos, al�m de serem �teis, devem trazer alguma novidade, ou seja, devem ser interessantes para o usu�rio. E na pr�tica, como a minera��o de dados pode ser �til?

Para responder a esta pergunta, deve-se considerar que a realidade atual das empresas est� inserida no contexto da globaliza��o. Assim, � importante que cada empresa busque, a cada instante, estrat�gias para conseguir alcan�ar vantagem competitiva em rela��o �s demais. Vantagem competitiva deve ser entendida como qualquer diferencial que uma empresa possa ter em rela��o �s outras. Entretanto, nem toda vantagem competitiva � sustent�vel, pois, em alguns casos, � poss�vel que ela seja copiada por outras empresas. Portanto, uma vantagem competitiva � considerada sustent�vel se ela for valiosa, rara, dif�cil de imitar ou insubstitu�vel.

Para incrementar a vantagem competitiva de uma empresa em um ambiente de constantes mudan�as, os seus gestores devem tomar as decis�es corretas nos momentos certos, utilizando as informa��es dispon�veis. Desta forma, o sucesso poder� ser alcan�ado a partir das decis�es tomadas desde que seja realizada uma explora��o eficaz do relacionamento existente entre os diferentes elementos que comp�em a realidade de atua��o da empresa.

Com o avan�o das tecnologias de informa��o e o aumento da capacidade de armazenamento e de processamento dos sistemas computacionais, cada vez mais as empresas armazenam em suas bases de dados informa��es referentes �s v�rias formas de intera��o com seus clientes e fornecedores. Como exemplo pode-se citar as transa��es de compras em uma empresa de varejo, em que cada compra de cada cliente envolve um ou mais produtos. A partir do banco de dados criado e alimentado durante um per�odo de tempo, imagina-se que estes dados possam conter informa��es valiosas. Algumas destas informa��es podem ser obtidas atrav�s da execu��o de consultas SQL, em que o desenvolvedor cria suas pr�prias hip�teses, ou de seus usu�rios, gerando, em seguida, uma s�rie de relat�rios gerenciais. Um relat�rio deste tipo informaria, por exemplo, os produtos mais vendidos durante o per�odo de um m�s.

Entretanto, nestes dados armazenados sobre as transa��es existe muito mais informa��es do que se percebe em um primeiro momento. Estas informa��es normalmente ficam ocultas devido ao volume de dados dispon�vel. Na busca destas informa��es ocultas pode-se querer, por exemplo, identificar os produtos que s�o comprados juntos em um certo n�mero de compras, o que corresponde ao problema conhecido como �an�lise da cesta de compras�. Outro exemplo � a busca pela identifica��o dos perfis de clientes a partir dos produtos adquiridos por eles. Observa-se facilmente que estes tipos de demandas n�o podem ser atendidos com simples consultas SQL. Assim, � necess�rio recorrer a outras ferramentas de an�lise.

A cada dia novos investimentos est�o sendo realizados em pesquisa para o desenvolvimento de t�cnicas computacionais e algoritmos para explorar as bases de dados dispon�veis. Isto permite um suporte cada vez maior aos tomadores de decis�es das empresas. Um grupo de t�cnicas desenvolvidas para este fim recebe a denomina��o de minera��o de dados (data mining), que corresponde a uma analogia ao processo tradicional de minera��o, em que ocorre a extra��o de min�rios valiosos da Terra. No caso da minera��o de dados, os �min�rios valiosos� s�o os padr�es escondidos nos dados que, de alguma forma, podem ser extra�dos.

� importante mencionar que, neste artigo, estamos tratando da aplica��o da minera��o de dados em bases de dados comerciais. Entretanto, a minera��o de dados vem sendo utilizada nas mais diversas �reas, como bioinform�tica, medicina, astronomia, an�lise de logs da web, pesquisa operacional, dentre outras.

Estima-se que o volume de dados armazenados em bancos de dados espalhados pelo mundo dobre a cada 20 meses. Assim, a dificuldade em encontrar padr�es e modelos nestes dados � cada vez maior, tornando-se ainda mais complexa pelo fato destes dados estarem normalmente espalhados em diferentes sistemas em diversos setores de uma empresa. A integra��o destes dados espalhados pode ser necess�ria se, no processo de tomada de decis�o, for necess�ria uma vis�o mais ampla da empresa. Esta integra��o pode ocorrer, por exemplo, com a implanta��o de um ERP ou um data warehouse. Em alguns casos esta integra��o pode n�o ser necess�ria, como no caso do escopo ser apenas vendas, o que exigir� apenas os dados referentes �s transa��es de vendas.

Independente do escopo para a gera��o dos padr�es desejados, para realizar a minera��o de dados s�o necess�rias ferramentas automatizadas ou semi-automatizadas. Atualmente existem diversas ferramentas de an�lise dispon�veis que n�o contemplam as t�cnicas de minera��o de dados. Estas ferramentas normalmente utilizam m�todos baseados na verifica��o, isto �, o usu�rio (analista de neg�cio) constr�i hip�teses sobre rela��es entre os dados para extrair algum tipo de padr�o impl�cito a partir do banco de dados. Um exemplo de hip�tese que pode ser tratada por este tipo de ferramenta � saber se os clientes com determinada faixa de renda familiar s�o mais propensos a solicitar financiamento em suas compras do que os demais clientes. Neste contexto de ferramentas est�o os geradores de relat�rios e as ferramentas de an�lise OLAP (On-Line Analytical Processing). Estes m�todos de verifica��o dependem da intui��o, vis�o e experi�ncia do analista de neg�cio em propor hip�teses interessantes para extrair informa��es do banco de dados, de tal forma que possam ser aplicadas estrategicamente na empresa. Diferentemente, na minera��o de dados o objetivo � encontrar rela��es entre os dados que ainda n�o sejam conhecidas. � importante mencionar que a minera��o de dados n�o precisa ser aplicada apenas a grandes bases de dados, sendo tamb�m poss�vel obter conhecimento valioso a partir de bases de dados modestas.

Para muitos autores, a minera��o de dados � considerada uma etapa de um processo maior, denominado KDD (Knowledge Discovery in Databases, traduzido como descoberta de conhecimento em bases de dados). O termo KDD foi utilizado pela primeira vez em 1989 e, desde ent�o, o interesse neste assunto aumenta a cada dia. O processo de KDD e a minera��o de dados utilizam t�cnicas herdadas de �reas como aprendizado de m�quina, estat�stica, reconhecimento de padr�es, intelig�ncia artificial, banco de dados e visualiza��o de dados.

O KDD prev� v�rias etapas como a sele��o, pr�-processamento, transforma��o e minera��o dos dados, bem como a interpreta��o dos resultados obtidos. Estas etapas foram apresentadas e explicadas na edi��o 10 da SQL Magazine. Outros autores apresentam varia��es destas etapas, que podem ser agrupadas em pr�-processamento, minera��o e p�s-processamento dos dados.

Pr�-processamento dos dados

Nessa etapa devem ser definidos os objetivos da an�lise. A defini��o dos objetivos necessita de um conhecimento pr�vio das possibilidades que a minera��o de dados oferece, al�m de um profundo conhecimento das necessidades do neg�cio da empresa.

Em seguida deve-se buscar conhecimento sobre as fontes dos dados, conhecendo sua estrutura e verificando como estes dados podem ser utilizados na minera��o. � ent�o realizada a sele��o dos dados conforme os objetivos definidos, ou seja, caso o objetivo seja identificar o comportamento de compras dos clientes em um per�odo de um ano, por exemplo, os dados referentes ao ano desejado devem ser selecionados. A partir da sele��o dos dados, estes dever�o ser organizados e armazenados em uma nova base de dados para an�lise, que pode ser mantida por um SGBD ou ser apenas um �nico arquivo texto. Durante a carga dos dados na nova base de dados, estes podem sofrer algum tratamento pr�vio para evitar resultados inesperados na minera��o de dados. � necess�rio tratar os dados quando existem distor��es, como valores discrepantes gerados devido a erro na entrada dos dados, ou falta de valores para alguns campos importantes para a minera��o e que n�o eram t�o importantes na entrada de dados, como o CEP, por exemplo. Existem formas de amenizar os efeitos de problemas como falta de valores ou dados inconsistentes, o que n�o faz parte do escopo deste artigo e por isto n�o ser� discutido aqui.

Ainda faz parte do pr�-processamento a realiza��o de uma an�lise pr�via dos dados, atrav�s de alguns m�todos estat�sticos, para tentar identificar atributos mais relevantes ou depend�ncias que possam facilitar ou dificultar a etapa de minera��o de dados. Ap�s a an�lise, pode ser necess�rio realizar a transforma��o dos valores de alguns atributos para melhorar os resultados obtidos com a minera��o de dados. Um exemplo deste caso seria realizar a transforma��o dos valores do campo de data de nascimento dos clientes, substituindo-o pela idade correspondente. Outro seria substituir valores cont�nuos por r�tulos de faixas de valores. Ap�s a transforma��o dos dados a base j� est� pronta para ser minerada.

Durante a etapa de pr�-processamento tamb�m dever� ser definida a tarefa de minera��o de dados a ser utilizada.

Minera��o de dados

Existem diferentes tarefas de minera��o que podem ser executadas sobre uma base de dados. As tarefas correspondem aos problemas que podem ser tratados pela minera��o de dados de uma forma mais ampla. As tarefas mais comuns s�o:

� Classifica��o: corresponde � descoberta de um conjunto de regras de decis�o que permitem classificar novas inst�ncias a partir de modelos obtidos dos dados j� existentes. Para a classifica��o � necess�rio um pr�vio conhecimento das classes das inst�ncias dispon�veis para que possa ser obtido um modelo que seja capaz de classificar novas inst�ncias.

� Agrega��o: tamb�m conhecida como �clusteriza��o�, refere-se ao procedimento de agrupar as inst�ncias de acordo com suas caracter�sticas, ou atributos. Assim, deseja-se que inst�ncias com valores similares para os atributos fiquem em um mesmo grupo e inst�ncias com atributos muito diferentes sejam colocadas em grupos diferentes.

� Associa��o: procura-se, com esta tarefa, identificar associa��es entre valores de atributos de inst�ncias na base de dados. A aplica��o mais conhecida para a tarefa de associa��o � a obten��o de regras de associa��o a partir de uma base de dados de vendas para tratar o problema da �an�lise da cesta de compras�. As regras de associa��o obtidas identificam os produtos que s�o comprados juntos com uma certa freq��ncia. Devido a seu grande apelo pr�tico, esta tarefa foi escolhida como tema principal deste artigo.

Depois de escolher a tarefa a ser utilizada, deve-se tamb�m escolher o algoritmo que ser� utilizado na minera��o de dados. Para cada tarefa existem diferentes algoritmos que trabalham com diferentes tipos de dados e que fornecem resultados diferentes. Alguns algoritmos s�o mais simples e outros mais sofisticados, como os algoritmos que utilizam l�gica difusa e redes neurais. Assim, � necess�rio um conhecimento do resultado que cada algoritmo pode fornecer, e como funciona internamente, para que a escolha possa ser acertada.

Dependendo do algoritmo escolhido, pode ser necess�rio tamb�m fornecer alguns par�metros para a sua execu��o. Estes par�metros normalmente dependem do conhecimento do usu�rio em rela��o ao neg�cio que est� sendo considerado.

Finalmente, esta etapa � conclu�da com a execu��o do algoritmo de minera��o de dados sobre a base de dados pr�-processada, utilizando os par�metros definidos. O resultado ser� um conjunto de padr�es, ou modelo, que descreve os dados, devendo ser analisado na etapa de p�s-processamento.

P�s-processamento

Normalmente, o modelo obtido na etapa anterior, al�m de descrever os dados minerados, poder� tornar poss�vel a realiza��o de previs�es sobre fatos futuros. Para isto � necess�rio que algu�m com conhecimento do neg�cio possa realizar a sua interpreta��o. Ap�s a interpreta��o, o pr�ximo passo � o seu uso nos processos decis�rios da empresa. A principal meta dessa etapa � melhorar a compreens�o do conhecimento obtido, em forma de relat�rios demonstrativos, com a documenta��o e explica��o das informa��es relevantes descobertas.

No p�s-processamento pode-se tamb�m chegar � conclus�o de que o modelo obtido n�o atende �s expectativas, ou seja, ao objetivo definido inicialmente. Neste caso, � necess�rio analisar todo o processo de KDD e identificar qual passo deve ser revisto e refeito. Dessa forma, os passos subseq�entes ao passo refeito tamb�m devem ser refeitos para que um novo modelo seja obtido e tamb�m avaliado. Existe ainda a possibilidade do usu�rio intervir em qualquer momento do processo e retornar a um passo anterior quando for detectado algum problema durante o seu desenvolvimento.

Como pode ser observado, o processo de KDD � iterativo, uma vez que pode ser executado v�rias vezes at� a obten��o do resultado desejado, e interativo, por permitir a interfer�ncia do usu�rio a qualquer momento e o retorno a passos anteriores.

Extra��o de regras de associa��o

O grande problema da descoberta de associa��es � que elas podem ter ocorrido ao acaso. Como exemplo, considere a hip�tese de que mais cegonhas determinam um maior n�mero de nascimento de crian�as. Isto pode ser confirmado ao serem analisadas correla��es nos dados sobre ninhos de cegonhas e taxa de natalidade de algumas regi�es da Su�cia (atrav�s de m�todos estat�sticos). Temos ent�o a confirma��o da hip�tese. Por�m, existe uma terceira vari�vel que foi desconsiderada na an�lise: a quantidade de chamin�s. As �reas urbanas da Su�cia t�m taxa de nascimento mais altas e tamb�m mais chamin�s, onde as cegonhas fazem seus ninhos, da�, o grande n�mero de cegonhas. Logo, � necess�rio estudar corretamente a teoria da associa��o antes de tentar medir, ou provar alguma coisa.

Na estat�stica trabalha-se dessa forma, ou seja, a partir de uma hip�tese busca-se verificar se ela � v�lida ou n�o. Na minera��o de dados, apesar de ser necess�ria a defini��o da tarefa a ser realizada e dos dados a serem analisados, normalmente n�o existe uma hip�tese pr�via a ser verificada.

A partir dos conceitos apresentados, neste artigo ser� tratada apenas a extra��o de regras de associa��o, que corresponde � obten��o de regras do tipo �se X ocorre ent�o Y ocorre�, ou seja, X � Y, onde X e Y correspondem a conjuntos de eventos que ocorrem com uma certa freq��ncia na base de dados. O algoritmo mais conhecido utilizado para este fim � o algoritmo chamado APRIORI, que foi desenvolvido com o objetivo de tratar o problema de encontrar padr�es referentes a produtos que s�o comprados juntos com uma certa freq��ncia (a an�lise da cesta de compras). A resolu��o deste problema pode ser aplicada a qualquer base de dados de transa��es de vendas de uma empresa. Um exemplo cl�ssico, e sempre lembrado quando se fala em minera��o de dados, � o de uma grande empresa varejista que, a partir da utiliza��o de um algoritmo de extra��o de regras de associa��o, obteve a regra ��s sextas-feiras no hor�rio noturno, jovens do sexo masculino que compram fraldas tamb�m compram cerveja�. A partir da regra obtida, a empresa pode tomar decis�es estrat�gicas, como ajustar mostru�rios, modificar prateleiras ou propagandas, e introduzir atividades promocionais espec�ficas, na tentativa de melhorar o foco do neg�cio. Dessa forma, o algoritmo APRIORI identifica depend�ncias na ocorr�ncia de itens de um subconjunto de dados, que � expressa na forma das regras de associa��o. O algoritmo APRIORI ser� explicado a seguir atrav�s de um exemplo.

Considere uma base de dados de um supermercado com apenas dez transa��es, como apresentada na Tabela 1. Os itens comprados nas transa��es correspondem aos produtos arroz (A), detergente (D), lasanha congelada (L), macarr�o (M) e pasta de dente (P). Para cada transa��o s�o indicados os itens comprados naquela transa��o. Como exemplo, na transa��o 1 foram comprados os itens arroz, lasanha congelada e macarr�o, o que � representado pelo conjunto {A, L, M}.