Data Mining de Regras de Associação – Parte 2

Você precisa estar logado para dar um feedback. Clique aqui para efetuar o login
Para efetuar o download você precisa estar logado. Clique aqui para efetuar o login
Confirmar voto
0
 (9)  (3)

Veja neste artigo os diferentes tipos de regras de associação que podem ser minerados em bases de dados.

Data Mining de Regras de Associação – Parte 2

Eduardo Corrêa Gonçalves

Instituto Brasileiro de Geografia e Estatística – IBGE

E-mail: eduardo.correa@ibge.gov.br

1. Introdução

 

O artigo anterior descreveu a forma básica para realizar o data mining de regras de associação e também apresentou conceitos importantes que estão relacionados a este tema (tais como medidas de interesse e base de dados transacional). Dando continuidade à série, este artigo apresenta os diferentes tipos de regras de associação que podem ser minerados em bases de dados.

2. Regras de Associação Transacionais

 

As regras de associação mineradas a partir de bases de dados de transações (como a ilustrada na Figura 1) foram apresentadas no artigo anterior. Elas são conhecidas na literatura como regras de associação transacionais ou regras de associação convencionais.

17-10-2007pic05.JPG
 

Figura 1 – Base de Dados de Transações

A partir da base de dados acima, tem-se que a seguinte regra transacional poderia ser minerada:  {couve}Þ {brócolis}. Esta regra é interessante porque possui suporte de 50% (metade dos consumidores comprou os dois produtos em conjunto) e confiança de 60% (o que indica que 60% dos consumidores que compraram couve também compraram brócolis). Para obter maiores detalhes sobre os conceitos de suporte, confiança e regra de associação transacional, consulte o artigo anterior.

3. Regras de Associação Multidimensionais

A grande maioria das ferramentas de mineração de dados oferece a capacidade de minerar regras de associação a partir de bases de dados que contêm atributos numéricos e categóricos, como data warehouses e bancos de dados relacionais. Neste caso, as regras de associação extraídas envolvem múltiplos atributos (ou dimensões - terminologia empregada na área de data warehouses). Este tipo de regra é denominado regra de associação multidimensional.

 

Considere uma base de dados de um supermercado que possui, além dos produtos comprados por seus clientes, outros atributos que informam os dados pessoais destes. Um exemplo de regra multidimensional que poderia ser minerada a partir desta base é

dado por:

 

(Sexo = “F”) Ù (30 £ Idade £ 35) Þ (Forma de Pagamento = “cartão de crédito”)

 

Esta regra hipotética indica que clientes do sexo feminino, com idade entre 30 e 35 anos, costumam pagar por suas compras utilizando cartão de crédito. Note que esta regra envolve três atributos (dimensões), sendo um deles numérico (Idade) e dois deles categóricos (Sexo e Forma de Pagamento).

4. Regras de Associação Híbridas

 

Uma regra de associação híbrida é um tipo especial de regra multidimensional onde uma das dimensões pode aparecer repetidas vezes no corpo da regra. Um exemplo deste tipo de regra é dado por:

(Sexo = “M”) Ù (Casado = “N”) Ù (Produto = “cerveja”) Þ  (Produto = “salaminho”)

Esta regra hipotética indica que clientes solteiros, do sexo masculino, que compram cerveja têm maior chance de também comprar salaminho. Este exemplo envolve três dimensões, sendo que uma delas ocorre mais de uma vez (Produto). Observe que este tipo de regra é extremamente útil, pois envolve tanto os dados pessoais dos clientes, quanto os produtos adquiridos pelos mesmos.

5. Regras de Associação Multinível

 

Em alguns casos, os itens em uma base de dados podem estar organizados em diferentes níveis, que os classificam hierarquicamente (Figura 2).

17-10-2007pic06.JPG
Figura 2- Hierarquia de classificação

 

Algumas ferramentas de mineração de dados oferecem a capacidade de minerar regras de associação definidas não somente a partir de itens básicos, mas também a partir de itens que representam classificações (ou generalizações) destes itens básicos. Este tipo de regra é denominado regra de associação multinível. Desta maneira, seria possível minerar a regra genérica {arroz} Þ {feijão} na base de dados, sem a necessidade da mineração de regras mais específicas como {arroz integral} Þ {feijão preto} e {arroz parboilizado} Þ {feijão fradinho}.

 

 

6. Regras de Associação Negativas

 

Usuários também podem estar interessados em minerar regras de associação negativas (também chamadas de exceções) em bases de dados. Esta abordagem é direcionada para a descoberta de regras inesperadas ou com suporte e confiança com valores baixos. Para ilustrar esta idéia, considere, por exemplo, a regra {couve} Þ {brócolis}, minerada a partir da base de dados hipotética apresentada na Figura 1. Esta regra é forte na base de dados em questão, uma vez que possui confiança de 60%. Note que dentre os cinco clientes que compraram {couve}, três também compraram {brócolis}.

Na prática, pode ser interessante descobrir se esta regra continua forte quando avaliada contra outros produtos da base de dados. Desta forma, uma ferramenta para a mineração de regras negativas poderia descobrir o seguinte padrão:

17-10-2007pic07.JPG

O significado intuitivo desta notação é o de indicar que o valor da confiança (ou do suporte) da regra de associação {couve}
Þ {brócolis} é significativamente inferior ao esperado entre os consumidores que compram {lingüiça}. A regra negativa foi inferida a partir de uma avaliação da regra de associação {couve} Þ {brócolis} contra o item {lingüiça}, pelo fato da confiança da regra {couve} Ù {lingüiça} Þ {brócolis} ser inferior a uma determinada expectativa.  Observando a base de dados da Figura 1, é possível identificar que nenhum dos consumidores que comprou  {couve} e {lingüiça} comprou {brócolis} (ou seja a confiança e o suporte de {couve} Ù {lingüiça} Þ {brócolis} possuem valor igual a 0%).

Uma regra negativa pode ser útil para identificar clientes com diferentes perfis de compra. Um especialista pode concluir, por exemplo, que a regra de associação {couve} Þ {brócolis} é válida entre os clientes adeptos de refeições que priorizam o consumo de verduras e legumes, mas que a mesma torna-se inválida entre os clientes que consomem carne de boi ou de porco.

7. Próximos Artigos


Este artigo apresentou os diferentes tipos de regras de associação que podem ser minerados pelas ferramentas de Data Mining (acadêmicas ou comerciais). O próximo artigo apresentará um exemplo de aplicação real das regras de associação na mineração de dados obtidos na Web.

 
Você precisa estar logado para dar um feedback. Clique aqui para efetuar o login
Receba nossas novidades
Ficou com alguma dúvida?