Weka Software: Mineração de dados com Weka

Por que eu devo ler este artigo:V�rios recursos s�o necess�rios para promover a descoberta de conhecimento em bases de dados. A t�cnica de Minera��o de dados ou Data Mining � considerada uma delas. Na minera��o de dados s�o aplicados algoritmos que objetivam identificar padr�es nos dados originais, sendo que tais algoritmos se baseiam em t�cnicas estat�sticas, intelig�ncia artificial e complexidade de algoritmos.

V�rias ferramentas t�m sido desenvolvidas para minera��o de dados, uma delas ser� explorada neste artigo, a ferramenta Weka. A utiliza��o desta ferramenta possibilita o uso de diversos algoritmos de classifica��o.

Esta discuss�o � �til para quem deseja conhecer mais sobre classificadores de dados, algoritmos de classifica��o e sobre identifica��o de padr�es. Os dados a serem classificados ser�o retirados do site dataPoa, onde � poss�vel consultar informa��es de diversas �reas.

A �rea escolhida foi acidentes de tr�nsito, desta forma o artigo tamb�m � �til para quem se interessa por estat�sticas de acidentes de tr�nsito e tomada de decis�o em situa��es de presta��o de socorro �s v�timas.
Autores: Marcelo Josu� Telles e Paulo Henrique Santini

A minera��o de dados consiste em um processo onde s�o aplicados algoritmos nos dados de um determinado dom�nio para encontrar padr�es e informa��es relevantes. Geralmente os dados s�o volumosos e possuem grande varia��o entre os elementos, o que torna o processo de descoberta de informa��o trabalhoso, por�m gratificante, pois resulta na descoberta de algo raro e preciso, da� o nome minera��o de dados. Para dar suporte � minera��o de dados, existem diferentes abordagens:

� Classifica��o Probabil�stica: busca prever a classe que maximiza a probabilidade posterior. A tarefa principal � estimar a probabilidade para cada classe, assumindo que os atributos s�o independentes, mesmo assim estes classificadores s�o interessantes para muitas aplica��es;

� Arvores de decis�o: neste classificador existe uma hierarquia de n�s que s�o conectados por ramos. A classifica��o dos dados � feita em cada n�vel da �rvore, pois s�o seguidos ramos at� atingir os n�s folha;

� An�lise discriminante linear: este classificador parte do conhecimento de que os elementos observados pertencem a diversos subgrupos e procura-se determinar fun��es das �n� vari�veis observadas que melhor permitam distinguir ou discriminar entre esses subgrupos ou classes;

� M�quinas de vetor de suporte: nestes classificadores ocorre a classifica��o das entradas em duas poss�veis classes, o que o torna um classificador linear bin�rio n�o probabil�stico.

Em espec�fico, a classifica��o � uma tarefa da minera��o de dados que associa ou classifica objetos a determinadas classes. Seu objetivo � prever uma classe de um novo dado automaticamente. Algoritmos de classifica��o s�o muito utilizados na minera��o de dados.

Isto pode ser explicado pelo fato da classifica��o ser uma das atividades que mais realizamos para compreender o ambiente em que vivemos. Estamos sempre classificando o que vemos em nossa volta e, atribuindo a cada classe identificada um tratamento diferente.

Na minera��o de dados, a tarefa de classificar est� associada � atribui��o de uma classe predefinida a novos fatos que est�o em an�lise. Dessa forma, esses algoritmos apoiam o entendimento de dados ou ajudam a prever como novos dados ir�o se comportar.

Por exemplo, uma base de dados que armazena informa��es sobre acidentes de tr�nsito, baseado em hist�ricos de transa��es anteriores, pode-se classificar quais acidentes resultaram (ou resultar�o) em v�timas fatais a partir de suas caracter�sticas.

Os classificadores oferecem uma ferramenta para infer�ncia estat�stica utilizando o racioc�nio probabil�stico que engloba teoria de grafos.

A rela��o entre os eventos � estabelecida atrav�s da teoria de probabilidade. Um grupo importante de classificadores se apoia na teoria conhecida como Redes Bayesianas (RBs) proposta pelo matem�tico Thomas Bayes.

As RBs s�o constitu�das de n�s e arcos, cada n� � interpretado como sendo um atributo que pode receber uma quantidade determinada de valores, tais valores devem ser nominais, isto � assumir um valor previamente estabelecido.

De acordo com o valor ...

Quer ler esse conteúdo completo? Tenha acesso completo