Minera��o de Regras de Associa��o com a Ferramenta de Data Mining Weka

1. Introdu��o

Weka � um software livre do tipo open source para minera��o de dados, desenvolvido em Java, dentro das especifica��es da GPL (General Public License) que ao longo dos �ltimos anos se consolidou como a ferramenta de minera��o de dados mais utilizada em ambiente acad�mico.

Embora a ferramenta possua como ponto forte a minera��o de classificadores em bases de dados, tamb�m pode ser utilizada para executar outras tarefas, especialmente a minera��o de regras de associa��o. Curiosamente, � muito dif�cil encontrar artigos com exemplos de utiliza��o da Weka no data mining de regras de associa��o. Esta situa��o serviu de motiva��o para a produ��o deste artigo, que mostra o passo-a-passo para a execu��o do data mining de regras de associa��o na Weka. O artigo � destinado a pessoas que j� possuem alguma experi�ncia no uso da ferramenta (quem j� utilizou a Weka para executar algoritmos de classifica��o, por exemplo) e conhecem os conceitos b�sicos sobre regras de associa��o (algoritmo Apriori, medidas de interesse, etc.).

O restante do artigo est� dividido da seguinte forma. A Se��o 2 apresenta um exemplo poss�vel de formata��o de uma base de dados do tipo "market basket data" para minera��o na Weka. A seguir, na Se��o 3, apresenta-se a forma de configurar os par�metros de entrada e executar a minera��o das regras de associa��o. As conclus�es s�o apresentadas na Se��o 4.

2. Formata��o da Base de Dados

A ferramenta Weka trabalha com arquivos de entrada no formato ARFF, que corresponde a um arquivo texto contendo um conjunto de observa��es, precedido por um pequeno cabe�alho. O cabe�alho � utilizado para fornecer informa��es a respeito dos campos que comp�em o conjunto de observa��es.

� importante observar que o formato ARFF foi originalmente proposto para a minera��o de classificadores; no entanto, ele pode ser "adaptado" para a minera��o de regras de associa��o. Essa adapta��o resulta em uma base de dados com uma estrutura um pouco esquisita, por�m capaz de ser manipulada pela ferramenta. A seguir apresenta-se um exemplo de base de dados ARFF contendo 9 transa��es e envolvendo 6 itens.



@relation "Transacoes"

@attribute I1 {y, n}
@attribute I2 {y, n}
@attribute I3 {y, n}
@attribute I4 {y, n}
@attribute I5 {y, n}
@attribute I6 {y, n}
 
@data
y,y,?,?,y,?
?,y,?,y,?,?
?,y,y,?,?,?
y,y,?,y,?,?
y,?,y,?,?,?
?,y,y,?,?,?
y,?,y,?,?,?
y,y,y,?,y,?
y,y,y,?,?,?

(1) Especifica��o dos itens do dom�nio no cabe�alho: todos os itens que comp�em a base precisam ser especificados no cabe�alho do arquivo ARFF. Cada item � tratado como um atributo distinto. Eles devem ser configurados como sendo do tipo categ�rico, suportando apenas dois valores (ex: {y,n} ou {yes,no}). Em nosso exemplo, a base possui 6 itens distintos: I1, I2, I3, I4, I5 e I6.
Veja que essa formata��o n�o � muito pr�tica, pois se estivesse sendo realizada a minera��o de uma base contendo 1000 itens (ex: 1000 produtos de um supermercado, algo bastante comum), seria preciso montar um cabe�alho com 1000 linhas.
(2) Indica��o de itens ausentes: este � o detalhe mais importante. Na formata��o das transa��es foi usado um macete: os itens ausentes s�o representados com �?�. Observando a base exemplo, tem-se que a primeira transa��o cont�m os itens I1, I2 e I5 (representados por "y") e n�o possui os itens I3, I4 e I6 (a aus�ncia dos itens � representada por "?"). Por sua vez, a segunda transa��o possui os itens I2 e I4.
Se o " ? " n�o for utilizado, a Weka acaba minerando regras envolvendo itens ausentes, o que � bastante inconveniente. Um exemplo: {caviar = 'n' } => {feij�o = 'n'}, regra que poderia ser interpretada como "quem n�o compra caviar, tamb�m n�o compra feij�o". Para uma base de dados real, milhares de regras in�teis deste tipo acabariam sendo geradas.

3. Minera��o de Regras de Associa��o na Weka

A seguir apresenta-se o passo-a-passo para a minera��o de regras de associa��o na Weka, a partir da base de dados exemplo.

PASSO 1: digite as informa��es da base mostrada na Figura 1 e salve com a extens�o .ARFF (exemplo: �transacoes.arff�). Ap�s abrir a Weka, clique no bot�o �Open file...� para importar a base.

PASSO 2: mude a caixa de sele��o que mostra o atributo classe e selecione a op��o �No class� (destacado na figura abaixo). Isso � feito porque na minera��o de regras transacionais n�o existe o conceito de atributo classe (conceito associado � tarefa de classifica��o).

PASSO 3: clique na aba "Associate". Efetue duplo clique onde est� escrito �Apriori� para poder configurar os par�metros do algoritmo

PASSO 4: a janela de configura��o ir� abrir. Para executar o exemplo, voc� poder� configurar os par�metros de acordo com o que est� indicado na figura abaixo.

Uma breve orienta��o sobre a configura��o destes par�metros � apresentada a seguir. Dentro da ferramenta Weka, voc� pode utilizar o bot�o �More� para visualizar uma janela de ajuda com mais informa��es sobre os par�metros.

lowerBoundMinSupport: suporte m�nimo.
upperBoundMinSupport: limite superior para o suporte.
delta: reduz o suporte iterativamente por este valor, partindo do limite superior at� que o limite inferior seja alcan�ado.
metricType: � um par�metro muito importante. Trata-se da especifica��o da medida de interesse que ir� determinar a validade da regra. O conjunto de resultados minerados ser� ordenado de acordo com essa medida. No exemplo, foi selecionada a medida conhecida como confian�a, mas a Weka permite a escolhida outras medidas: lift, conviction e leverage (que levam em conta a correla��o entre os itens da base).
minMetric: valor m�nimo para a m�trica selecionada em metricType.
numRules: n�mero m�ximo de regras que ser�o mostradas na tela de resultados.
outputItemSets: se configurado como TRUE, na sa�da, al�m de exibir as regras mineradas, exibir� tamb�m os itemsets frequentes.

car: pode ser mantido com valor "false".
classIndex: ser� ignorado pelo algoritmo de minera��o, pois a base n�o possui atributo classe.
removeAllMissingColumns: pode ser mantido com valor "false".
verbose: pode ser mantido com valor "false".

PASSO 5: clique no bot�o �OK�. A seguir clique em �Start�. As regras de associa��o ser�o mineradas e exibidas na tela de resultados.

4. Conclus�es

Este artigo apresentou um roteiro para a minera��o de regras de associa��o na popular ferramenta Weka. Uma caracter�stica atraente da ferramenta � a sua simplicidade. A configura��o dos par�metros e a execu��o do algoritmo de minera��o s�o feitas atrav�s de uma interface agrad�vel e intuitiva.

Como principal caracter�stica negativa, encontra-se o fato de a base de dados a ser minerada precisar estar estruturada em um formato que n�o � muito pr�tico (o que pode inviabilizar o uso da ferramenta em algumas aplica��es reais). � preciso especificar todos os itens do dom�nio na se��o de cabe�alho e indicar os itens ausentes em cada transa��o com o uso do s�mbolo "?".

Confira outros conte�dos:

Por Eduardo Em 2011

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Fernanda Vassoler

As imagens n�o est�o aparecendo, dessa forma n�o consigo saber qual foi a informa��o adicionada no passo 4. OBS: uma pessoa com defici�ncia visual tamb�m n�o conseguiria obter essas informa��es.

há +1 ano

Rodolfo Gomes

DevMedia

Muuuito obrigado pelo feedback Fernanda =D

Ajustamos o artigo e o mesmo encontra se normalizado!

No que precisar conte conosco

TMJ

há +1 ano

Anderson Siqueira

Artigo simples e direto. O WEKA � uma ferramenta muito �til para quem trabalha ou deseja trabalhar com aprendizado de m�quina

há +1 ano

Eduardo Gon�alves

Eu concordo com voc� Anderson! Em especial, � uma boa ferramenta para quem deseja aprender Minera��o de Dados.

há +1 ano

Minera��o de Regras de Associa��o com a Ferramenta de Data Mining Weka

Este artigo mostra o passo-a-passo para a execu��o da tarefa de minera��o de regras de associa��o transacionais na ferramenta Weka.

1. Introdu��o

2. Formata��o da Base de Dados

3. Minera��o de Regras de Associa��o na Weka

4. Conclus�es

Confira outros conte�dos: