Minera��o de dados na pr�tica - Revista SQL Magazine 98

De que se trata o artigo:

Este artigo aborda as principais tarefas e t�cnicas de minera��o de dados. A tarefa de clusteriza��o e o algoritmo K-means s�o apresentados com mais detalhes. Um estudo de caso, para grandes empresas varejistas � ilustrado. Veremos que a escolha da t�cnica a ser utilizada depende do problema de negocio a ser solucionado e das caracter�sticas dos dados dispon�veis para an�lise. Apesar da exist�ncia de v�rias t�cnicas e ferramentas de minera��o de dados, muitas organiza��es ainda desconhecem o quanto essas ferramentas podem dar suporte ao processo de tomada de decis�o.

Em que situa��o o tema � �til:

O tema se torna fundamental para empresas e desenvolvedores que buscam cada vez mais qualificarem seus dados para melhorias no processo de tomada de decis�o.

Resumo DevMan:

A etapa minera��o de dados � considerada a principal etapa do processo de KDD e o n�cleo central do processo de prospec��o de conhecimento, sendo composto pelos m�todos de minera��o de dados respons�veis pela extra��o e busca efetiva de conhecimento expl�cito e potencialmente �til dos dados. Neste contexto, como objetivo principal deste artigo, ser� apresentado um estudo de caso que faz uso da tarefa de clusteriza��o e do algoritmo K-Means.

Autores: Marcio Marcenes Netto e Tauller Augusto de Ara�jo Matos

Com o grande avan�o tecnol�gico visto nestas �ltimas d�cadas, agregado a dissemina��o do uso dos meios eletr�nicos na sociedade, nos deparamos com uma grande quantidade de volume de dados armazenados dos mais variados tipos.

Do ponto de vista comercial, quantidades gigantescas de dados s�o diariamente coletadas e armazenadas por empresas e corpora��es. Dados referentes a compras de clientes em lojas de departamento e redes de supermercados, navega��o na internet, com�rcio eletr�nico, transa��es banc�rias ou de cart�es de cr�dito. As empresas utilizam os dados para obterem conhecimento sobre seus clientes a fim de ganhar vantagem e aumentar sua efici�ncia nesse mundo cada vez mais competitivo e fornecer valiosos servi�os aos seus clientes.

Todo esse consider�vel conjunto de dados cont�m uma preciosa quantidade de informa��o, no entanto, sua an�lise por meio de m�todos manuais que utiliza linguagens de consultas tradicionais � invi�vel. Analistas humanos podem levar semanas para correlacionar e descobrir alguma informa��o �til dentro de uma grande massa de dados.

Quando a escala da manipula��o de dados, explora��o e infer�ncia desenvolvem-se al�m das capacidades humanas, faz-se necess�rio a cria��o de uma nova gera��o de teorias computacionais e o desenvolvimento de ferramentas que auxiliem o homem na an�lise e interpreta��o dessa grande quantidade de dados para extrair conhecimento �til dentro do contexto da aplica��o no processo de tomada de decis�o.

Neste contexto, surge a �rea denominada Descoberta de Conhecimento em Bases de Dados ou Knowledge Discovery in Databases (KDD). A etapa minera��o de dados � considerada a principal etapa do processo de KDD e o n�cleo central do processo de prospec��o de conhecimento, sendo composto pelos m�todos de minera��o de dados respons�veis pela extra��o e busca efetiva de conhecimento expl�cito e potencialmente �til dos dados.

Nesta etapa que s�o aplicados as t�cnicas e os algoritmos a serem utilizados no problema em quest�o, de forma a extrair modelos de dados. A escolha da t�cnica a ser utilizada no processo de minera��o de dados depende exclusivamente do tipo de tarefa de KDD a ser efetivamente realizada.

Atualmente, encontram-se comercialmente dispon�veis diversas ferramentas de minera��o de dados ou Data Mining que auxiliam cientistas a classificar e segmentar dados, formular hip�teses, realizar diagn�sticos. Auxiliam analistas a entender e prever necessidades e interesses dos clientes, descobrirem perfis de comportamento. Auxiliam na detec��o de fraudes, aprova��o de cr�dito e de ap�lice, d�o apoio a investimentos. Na �rea de internet auxiliam no mecanismo de busca inteligente e web marketing.

Neste contexto, este artigo aborda as principais tarefas e t�cnicas de minera��o de dados. A tarefa de clusteriza��o e o algoritmo K-means s�o apresentados com mais detalhes. Um estudo de caso, para grandes empresas varejistas � ilustrado. Para isso, inicialmente s�o definidos os conceitos utilizados neste artigo tais como, minera��o de dados, tarefas de minera��o e mais especificamente a tarefa Clusteriza��o. Em seguida � apresentado o algoritmo K-means. Por fim, apresentamos um exemplo pr�tico de uso do algoritmo.

Minera��o de Dados e Tarefas de Minera��o

O termo KDD foi formalizado em 1989 em refer�ncia ao amplo conceito de procurar conhecimento a partir de bases de dados. Uma das defini��es mais populares foi proposta em 1996 por um grupo de pesquisadores. KDD � um processo, de v�rias etapas, n�o-trivial, interativo e iterativo, para identifica��o de padr�es compreens�veis, v�lidos, novos, potencialmente �teis a partir de grandes conjuntos de dados.

Para que se possa realizar o processo de KDD, torna-se necess�ria algumas fases como pr�-processamento, minera��o de dados e p�s-processamento.

O pr�-processamento � de fundamental relev�ncia no processo de descoberta de conhecimento, pois a qualidade dos dados vai determinar a efici�ncia do algoritmo. O principal objetivo dessa etapa consiste em solucionar problemas nos dados tais como eliminar dados redundantes e inconsist�ncias, recuperar dados incompletos e avaliar poss�veis dados discrepantes ao conjunto. S�o utilizados tamb�m m�todos de redu��o ou transforma��o para diminuir o n�mero de vari�veis envolvidas no processo de KDD, ao visar � melhora no desempenho do algoritmo. � de fundamental import�ncia nessa etapa do processo de KDD o aux�lio do especialista no dom�nio da aplica��o, pois estas pessoas det�m o chamado conhecimento pr�vio sobre o problema e influenciam desde a defini��o dos objetivos do processo at� a avalia��o dos resultados. Essa etapa tem como objetivo a prepara��o dos dados para os algoritmos da etapa da Minera��o de Dados.

...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO