Extra��o de �rvores de Decis�o com a Ferramenta de Data Mining Weka

1 Introdu��o

A minera��o de dados (data mining) pode ser definida como o processo autom�tico de descoberta de conhecimento em bases de dados muito volumosas. Os primeiros softwares para minera��o de dados come�aram a ser desenvolvidos em meados da d�cada de 90, ainda em ambiente acad�mico. Hoje em dia j� existem algumas dezenas de ferramentas comerciais para data mining, desenvolvidas por empresas como SAS (Enterprise Miner), IBM (Intelligent Miner) e SPSS (Clementine). Al�m disso, diversos recursos para minera��o de dados encontram-se disponibilizados nas vers�es mais recentes dos SGBD�s Oracle e SQL Server.

Este artigo pretende apresentar ao leitor uma das ferramentas de data mining mais simples e largamente utilizadas: a ferramenta Weka. O sistema Weka � um software livre (de c�digo aberto) para minera��o de dados, desenvolvido em Java, dentro das especifica��es da GNU (General Public License). As suas caracter�sticas, bem como as t�cnicas nele implementadas s�o descritas de forma detalhada em [Witten e Frank 2005], cujos autores s�o os respons�veis pela implementa��o da ferramenta. O software est� dispon�vel para Windows, Linux e outras plataformas.

2 �rvores de Decis�o

A ferramenta Weka possui como ponto forte a extra��o de classificadores em bases de dados. Um classificador (ou modelo de classifica��o) � utilizado para identificar a classe � qual pertence uma determinada observa��o de uma base de dados, a partir de suas caracter�sticas (seus atributos).

A minera��o de modelos de classifica��o em bases de dados � um processo composto por duas fases: aprendizado e teste. Na fase de aprendizado, um algoritmo classificador � aplicado sobre um conjunto de dados de treinamento. Como resultado, obtem-se a constru��o do classificador propriamente dito. Tipicamente, o conjunto de treinamento corresponde a um subconjunto de observa��es selecionadas de maneira aleat�ria a partir da base de dados que se deseja analisar. Cada observa��o do conjunto de treinamento � caracterizada por dois tipos de atributo: o atributo classe, que indica a classe a qual a observa��o pertence; e os atributos preditivos, cujos valores ser�o analisados para que seja descoberto o modo como eles se relacionam com o atributo classe. Para exemplificar estes conceitos, considere o conjunto de dados de treinamento apresentado na Tabela 1. Neste exemplo, o conjunto de dados � composto por observa��es selecionadas a partir de uma base hipot�tica de informa��es censit�rias. Cada observa��o cont�m os dados de uma pessoa entrevistada. Observe que o atributo �Rico� - utilizado para indicar se uma pessoa possui renda anual igual ou superior a R$ 50.000,00 - representa o atributo classe, enquanto os atributos �escolaridade� e �idade� s�o preditivos.

Tabela 1 Base de Dados Censit�rios

NOME	ESCOLARIDADE	IDADE	RICO (atributo classe)
Alva	Mestrado	>30	Sim
Amanda	Doutorado	<=30	Sim
Ana	Mestrado	<=30	N�o
Eduardo	Doutorado	>30	Sim
In�s	Gradua��o	<=30	N�o
Joaquim	Gradua��o	>30	N�o
Maria	Mestrado	>30	Sim
Raphael	Mestrado	<=30	N�o

Ap�s o classificador ser constru�do, inicia-se a etapa de teste, que visa avaliar a sua acur�cia atrav�s do emprego de um conjunto de dados de teste. O conjunto de teste cont�m observa��es que tamb�m s�o selecionadas aleatoriamente a partir da base de dados. No entanto, estas observa��es devem ser diferentes das que foram selecionadas para compor o conjunto de treinamento. A acur�cia do classificador representa a porcentagem de observa��es do conjunto de teste que s�o corretamente classificadas por ele. Caso a acur�cia seja alta, o modelo de classifica��o � considerado eficiente e pode ser utilizado para classificar novos casos.

Diversas t�cnicas podem ser utilizadas para a constru��o de classificadores, tais como redes neurais, m�todos Bayesianos e �rvores de decis�o, entre outros. As �rvores de decis�o (Figura 1) t�m sido muito utilizadas pelos softwares de minera��o de dados. Isto � justificado pelo fato delas possu�rem uma representa��o intuitiva, que torna o modelo de classifica��o f�cil de ser interpretado.

Figura 1 �rvore de decis�o constru�da a partir do conjunto de dados da Tabela 1.

A �rvore de decis�o apresentada na Figura 1 indica se uma pessoa � rica ou n�o com base nos seus outros atributos, os atributos preditivos. A estrutura possui as seguintes caracter�sticas:

               - cada n� interno � um teste em um atributo preditivo;
               - uma ramifica��o partindo de um n� interno representa um resultado para o teste (por exemplo, Escolaridade = �Doutorado�);
            - uma folha da �rvore representa um r�tulo de classe (por exemplo, Rico = �Sim� ou Rico = �N�o�);
            - em cada n� da �rvore, um atributo deve ser escolhido para dividir as observa��es do conjunto de treinamento em classes, na medida do poss�vel.
            - uma nova observa��o � classificada seguindo um caminho na �rvore, da raiz at� a folha.

� importante observar que uma �rvore de decis�o pode ser utilizada com duas finalidades: previs�o (exemplo: descobrir se um cliente ser� um bom pagador em fun��o de suas caracter�sticas) e descri��o (fornecer informa��es interessantes a respeito das rela��es entre os atributos preditivos e o atributo classe numa base de dados).

Uma �rvore de decis�o � formada por um conjunto de regras de classifica��o. Cada caminho da raiz at� uma folha representa uma destas regras. A �rvore de decis�o deve ser definida de forma que, para cada observa��o da base de dados, haja um e apenas um caminho da raiz at� a folha. As quatro regras de classifica��o a seguir, comp�em a �rvore de decis�o da Figura 1.

1. (Escolaridade = �Gradua��o�) � (Rico = �N�o�)

2. (Escolaridade = �Doutorado�) � (Rico = �Sim�)

3. (Escolaridade = �Mestrado�) & (Idade = �>30�) � (Rico = �Sim�)

4. (Escolaridade = �Mestrado�) & (Idade = �<=30�) � (Rico = �N�o�)

Uma regra de classifica��o � uma express�o da forma A � B, onde A � denominado antecedente e B � denominado conseq�ente. O antecedente deve ser formado por um ou mais atributos preditivos, enquanto o atributo classe aparece no lado do conseq�ente. Uma regra do tipo A � B indica que a classe B pode ser determinada pelos atributos preditivos indicados no antecedente. Medidas como a probabilidade condicional podem ser utilizadas para avaliar a qualidade de uma regra de classifica��o.

Existem diversos algoritmos na literatura utilizados para a constru��o de �rvores de decis�o, tais como ID3, C4.5 e CHAID. Detalhes sobre as caracter�sticas e a implementa��o destes algoritmos podem ser obtidos em [Berry e Linoff 2004] e [Han e Kamber 2006]. De forma resumida pode-se dizer que os algoritmos para classifica��o s�o recursivos e que eles constroem a �rvore utilizando uma abordagem top-down. Os algoritmos classificadores possuem como meta a constru��o de �rvores que possuam o menor tamanho e a maior acur�cia poss�veis. Uma quest�o chave para a constru��o de uma �rvore de decis�o consiste na estrat�gia para a escolha dos atributos que estar�o mais pr�ximos da raiz da �rvore (ou seja, os atributos que s�o inicialmente avaliados para determinar a classe a qual uma observa��o pertence). Observe que na Figura 1, o atributo �Escolaridade� encontra-se na raiz da �rvore, pois foi considerado pelo algoritmo classificador como o atributo mais importante para determinar se uma pessoa � rica ou n�o. Geralmente s�o utilizadas medidas baseadas na entropia para tratar este problema.

3. Constru��o de uma �rvore de Decis�o Utilizando a Ferramenta Weka

A ferramenta Weka trabalha com arquivos de entrada no formato ARFF, que corresponde a um arquivo texto contendo um conjunto de observa��es, precedido por um pequeno cabe�alho. O cabe�alho � utilizado para fornecer informa��es a respeito dos campos que comp�em o conjunto de observa��es. Dessa forma, antes da minera��o de dados, a ferramenta pode verificar alguma inconsist�ncia na base de dados e sinaliz�-la. A Figura 2 ilustra um exemplo de arquivo ARFF, contendo um cabe�alho e um conjunto de 8 registros que representam a base de dados apresentada na Tabela 1. Observe que o cabe�alho cont�m a declara��o da rela��o que o arquivo representa (comando @relation), uma lista de atributos (comando @attribute) e a rela��o de valores que os mesmos podem assumir. O conjunto de observa��es � precedido por um comando @data. Cada observa��o � representada por uma linha. Os valores dos campos dentro de uma observa��o devem ser separados utilizando a v�rgula.

Figura 2 Arquivo ARFF.

O instalador da ferramenta Weka pode ser obtido de maneira gratuita (juntamente com seu c�digo fonte) no site http://www.cs.waikato.ac.nz/~ml/weka. Uma vez instalado, o sistema Weka pode ser utilizado para minerar �rvores de decis�o atrav�s da execu��o dos seguintes passos:

PASSO 1: Executar o programa. A partir do menu Iniciar / Programas, selecione WEKA e clique em Weka 3-4 (vers�o atual do sistema). O menu principal Weka GUI Chooser ser� exibido na tela. Clique no bot�o �Explorer� (Figura 3).

Figura 3 Weka GUI Chooser

PASSO 2: Importar o arquivo ARFF. Ap�s iniciar o Weka Explorer, a op��o �Open File� deve ser utilizada para abrir o arquivo ARFF que ser� minerado.

PASSO 3: Selecionar os Atributos. Em seguida, o Weka abrir� uma tela que permite com que o usu�rio possa definir qual o atributo da base que ser� utilizado como classe e quais os atributos que ser�o utilizados como preditivos (Figura 4). No momento da importa��o, por default, o Weka ir� considerar o �ltimo atributo especificado no cabe�alho do arquivo ARFF, como o atributo classe, enquanto os demais atributos ser�o tratados como atributos preditivos. Observe que, nesta tela (aba Preprocess), tamb�m � poss�vel consultar gr�ficos de barra que indicam os cruzamentos de freq��ncia envolvendo todos os atributos preditivos e o atributo classe.

Figura 4 Sele��o da Classe e dos Atributos Preditivos

PASSO 4: Selecionar o Algoritmo de Minera��o. Clique na aba �Classify�. A partir desta tela � poss�vel escolher e executar um algoritmo de classifica��o sobre a base de dados importada. Os resultados da minera��o tamb�m poder�o ser consultados neste mesmo local. Clique no bot�o "Choose". Ser� aberta uma janela que permitir� a escolha do algoritmo de minera��o de dados. Clique na pasta "trees" (algoritmos de �rvore de decis�o) e selecione a op��o "Id3" (Figura 5).

Figura 5 Sele��o do Algoritmo de Minera��o de Dados

PASSO 5: Executar o Algoritmo de Minera��o. No painel �Test options� selecione a op��o �Use training set�. Esta sele��o indica ao Weka que toda a base de dados ser� utilizada como base de treinamento durante o processo de minera��o. A seguir clique no bot�o "Start". A �rvore de decis�o gerada pelo algoritmo ID3 � apresentada no canto direito da tela do Weka, conforme ilustra a �rea destacada no c�rculo vermelho da Figura 6. Na mesma tela s�o apresentadas algumas medidas de interesse que indicam a qualidade da �rvore minerada.

Figura 6 �rvore de Decis�o Minerada pelo Weka

4. Conclus�es

Este artigo demonstrou os passos necess�rios para a extra��o de �rvores de decis�o a partir de bases de dados atrav�s da utiliza��o da ferramenta de data mining Weka. O trabalho tamb�m apresentou conceitos introdut�rios sobre a minera��o de classificadores e sobre �rvores de decis�o.

Como trabalho futuro pretende-se apresentar outros conceitos associados � minera��o de �rvores de decis�o como, por exemplo, as medidas de interesse para avaliar a qualidade destas �rvores. Al�m disso pretende-se descrever outras capacidades do sistema Weka, como a minera��o de regras de associa��o e clusters de dados e a obten��o de modelos de classifica��o atrav�s de outros algoritmos diferentes do ID3.

Refer�ncias

BERRY, M. L. A. e LINOFF, G. (2004), Data Mining Techniques: for Marketing, Sales and Customer Relationship Management, John Wiley Consumer, 2nd edition.

HAN, J. e KAMBER, M. (2006), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2nd edition.

WITTEN, I. H. e FRANK, E. (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann Publishers, 2nd edition.

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Eduardo Em 2007

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

N�vel

Legal pra caramba. Simples.. facil de entender.. e bem esclarecedor.

Parabens

há +1 ano

N�vel

Muito bom, me esclareceu algumas d�vidas que tinha.

Parab�ns!

há +1 ano

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Extra��o de �rvores de Decis�o com a Ferramenta de Data Mining Weka

Este artigo apresenta uma introdu��o ao sistema WEKA, um software livre para Data Mining.

Extra��o de �rvores de Decis�o com a Ferramenta de Data Mining Weka

1 Introdu��o

2 �rvores de Decis�o

3. Constru��o de uma �rvore de Decis�o Utilizando a Ferramenta Weka

4. Conclus�es

Refer�ncias

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Perguntas frequentes

Nossos casos de sucesso