Por que eu devo ler este artigo:A mineração de dados permite a descoberta de informações potencialmente úteis em bases de dados. Este artigo apresenta inicialmente o processo de descoberta de conhecimento.

Em seguida, são apresentadas as tarefas da mineração (classificação, estimativa ou regressão, associação, clusterização) e as técnicas existentes (regras de associação, regras de classificação, árvores de decisão, agrupamento).

A mineração de dados, com suas tarefas e técnicas, representa a fase principal do KDD, sigla em inglês para Knowledge Discovery in Databases, ou Descoberta de Conhecimento em Bases de Dados.

O KDD concentra os conceitos e processos para a utilização de bases de dados em processos de tomada de decisão transformando, através de processamentos sucessivos, dados brutos em informações relevantes e conhecimento útil.

Este artigo apresenta as definições do KDD, concentrando-se nas fases de pré-processamento e mineração de dados, com suas principais tarefas e técnicas.

O KDD é formado por uma sequência de etapas que, uma vez executadas, resultará na geração do conhecimento útil. Este processo é composto, conforme apresentado na Figura 1, pelas seguintes atividades: seleção dos dados utilizados; sua preparação para a utilização através de um tratamento prévio (pré-processamento); sua subsequente transformação para um formato adequado; o processamento do conjunto de dados por algoritmos especialistas (mineração de dados) e, finalmente, a análise dos resultados obtidos para a sua aplicação no processo decisório (interpretação/avaliação).

Figura 1. As fases do KDD

A etapa de seleção diz respeito à análise da disponibilidade e relevância dos dados existentes nas suas diversas fontes. Uma escolha errada dos dados pode levar à geração de informações errôneas, prejudicando a tomada de decisão.

Uma vez identificado e extraído o conjunto de dados relevantes, faz-se necessário prepará-los para a aplicação das técnicas de mineração. Esse tratamento consiste em seu processamento, sob diferentes aspectos, tornando-os qualificados para a mineração.

Preliminarmente, devem ser estabelecidas normas de representação dos dados utilizados, que geralmente são provenientes de origens distintas, com diferentes formatos de armazenamento, determinando a sua padronização na base a ser gerada.

A definição das normas de representação de uma base para mineração sofre influência direta da técnica de mineração desejada e, em alguns casos, da ferramenta de mineração utilizada. Após a definição das normas de representação, os dados identificados devem ser extraídos de suas fontes e integrados em um único repositório.

A fase de pré-processamento é constituída por diversas atividades de tratamento dos dados selecionados, tais como verificação semântica, enriquecimento, deduplicação, unificação e discretização, detalhadas a seguir.

A verificação dos dados armazenados quanto à sua consistência semântica determinará se, ao integrá-los de fontes diferentes, foi produzida alguma inconsistência. Problemas com compatibilidade dos elementos formadores de endereços - CEP, bairro, cidade, Estado, país, são exemplos comuns de inconsistências identificadas nesse processo.

O enriquecimento dos dados consiste no preenchimento ...

Quer ler esse conteúdo completo? Tenha acesso completo