Weka Software: Mineração de dados com Weka

Você precisa estar logado para dar um feedback. Clique aqui para efetuar o login
Para efetuar o download você precisa estar logado. Clique aqui para efetuar o login
Confirmar voto
0
 (3)  (0)

Este artigo apresenta o uso da ferramenta Weka na aplicação de algoritmos de classificação para mineração de dados. Veja seu uso com um exemplo prático para predição da existência de vítimas em acidentes de trânsito.

Fique por dentro
Vários recursos são necessários para promover a descoberta de conhecimento em bases de dados. A técnica de Mineração de dados ou Data Mining é considerada uma delas. Na mineração de dados são aplicados algoritmos que objetivam identificar padrões nos dados originais, sendo que tais algoritmos se baseiam em técnicas estatísticas, inteligência artificial e complexidade de algoritmos.

Várias ferramentas têm sido desenvolvidas para mineração de dados, uma delas será explorada neste artigo, a ferramenta Weka. A utilização desta ferramenta possibilita o uso de diversos algoritmos de classificação.

Esta discussão é útil para quem deseja conhecer mais sobre classificadores de dados, algoritmos de classificação e sobre identificação de padrões. Os dados a serem classificados serão retirados do site dataPoa, onde é possível consultar informações de diversas áreas.

A área escolhida foi acidentes de trânsito, desta forma o artigo também é útil para quem se interessa por estatísticas de acidentes de trânsito e tomada de decisão em situações de prestação de socorro às vítimas.
Autores: Marcelo Josué Telles e Paulo Henrique Santini

A mineração de dados consiste em um processo onde são aplicados algoritmos nos dados de um determinado domínio para encontrar padrões e informações relevantes. Geralmente os dados são volumosos e possuem grande variação entre os elementos, o que torna o processo de descoberta de informação trabalhoso, porém gratificante, pois resulta na descoberta de algo raro e preciso, daí o nome mineração de dados. Para dar suporte à mineração de dados, existem diferentes abordagens:

· Classificação Probabilística: busca prever a classe que maximiza a probabilidade posterior. A tarefa principal é estimar a probabilidade para cada classe, assumindo que os atributos são independentes, mesmo assim estes classificadores são interessantes para muitas aplicações;

· Arvores de decisão: neste classificador existe uma hierarquia de nós que são conectados por ramos. A classificação dos dados é feita em cada nível da árvore, pois são seguidos ramos até atingir os nós folha;

· Análise discriminante linear: este classificador parte do conhecimento de que os elementos observados pertencem a diversos subgrupos e procura-se determinar funções das “n” variáveis observadas que melhor permitam distinguir ou discriminar entre esses subgrupos ou classes;

· Máquinas de vetor de suporte: nestes classificadores ocorre a classificação das entradas em duas possíveis classes, o que o torna um classificador linear binário não probabilístico.

Em específico, a classificação é uma tarefa da mineração de dados que associa ou classifica objetos a determinadas classes. Seu objetivo é prever uma classe de um novo dado automaticamente. Algoritmos de classificação são muito utilizados na mineração de dados.

Isto pode ser explicado pelo fato da classificação ser uma das atividades que mais realizamos para compreender o ambiente em que vivemos. Estamos sempre classificando o que vemos em nossa volta e, atribuindo a cada classe identificada um tratamento diferente.

Na mineração de dados, a tarefa de classificar está associada à atribuição de uma classe predefinida a novos fatos que estão em análise. Dessa forma, esses algoritmos apoiam o entendimento de dados ou ajudam a prever como novos dados irão se comportar.

Por exemplo, uma base de dados que armazena informações sobre acidentes de trânsito, baseado em históricos de transações anteriores, pode-se classificar quais acidentes resultaram (ou resultarão) em vítimas fatais a partir de suas características.

Os classificadores oferecem uma ferramenta para inferência estatística utilizando o raciocínio probabilístico que engloba teoria de grafos.

A relação entre os eventos é estabelecida através da teoria de probabilidade. Um grupo importante de classificadores se apoia na teoria conhecida como Redes Bayesianas (RBs) proposta pelo matemático Thomas Bayes.

As RBs são constituídas de nós e arcos, cada nó é interpretado como sendo um atributo que pode receber uma quantidade determinada de valores, tais valores devem ser nominais, isto é assumir um valor previamente estabelecido.

De acordo com o valor " [...]

A exibição deste artigo foi interrompida :(
Este post está disponível para assinantes MVP

 
Você precisa estar logado para dar um feedback. Clique aqui para efetuar o login
Receba nossas novidades
Ficou com alguma dúvida?