De que se trata o artigo:

Este artigo aborda as principais tarefas e técnicas de mineração de dados. A tarefa de clusterização e o algoritmo K-means são apresentados com mais detalhes. Um estudo de caso, para grandes empresas varejistas é ilustrado. Veremos que a escolha da técnica a ser utilizada depende do problema de negocio a ser solucionado e das características dos dados disponíveis para análise. Apesar da existência de várias técnicas e ferramentas de mineração de dados, muitas organizações ainda desconhecem o quanto essas ferramentas podem dar suporte ao processo de tomada de decisão.


Em que situação o tema é útil:

O tema se torna fundamental para empresas e desenvolvedores que buscam cada vez mais qualificarem seus dados para melhorias no processo de tomada de decisão.

Resumo DevMan:

A etapa mineração de dados é considerada a principal etapa do processo de KDD e o núcleo central do processo de prospecção de conhecimento, sendo composto pelos métodos de mineração de dados responsáveis pela extração e busca efetiva de conhecimento explícito e potencialmente útil dos dados. Neste contexto, como objetivo principal deste artigo, será apresentado um estudo de caso que faz uso da tarefa de clusterização e do algoritmo K-Means.

Autores: Marcio Marcenes Netto e Tauller Augusto de Araújo Matos

Com o grande avanço tecnológico visto nestas últimas décadas, agregado a disseminação do uso dos meios eletrônicos na sociedade, nos deparamos com uma grande quantidade de volume de dados armazenados dos mais variados tipos.

Do ponto de vista comercial, quantidades gigantescas de dados são diariamente coletadas e armazenadas por empresas e corporações. Dados referentes a compras de clientes em lojas de departamento e redes de supermercados, navegação na internet, comércio eletrônico, transações bancárias ou de cartões de crédito. As empresas utilizam os dados para obterem conhecimento sobre seus clientes a fim de ganhar vantagem e aumentar sua eficiência nesse mundo cada vez mais competitivo e fornecer valiosos serviços aos seus clientes.

Todo esse considerável conjunto de dados contém uma preciosa quantidade de informação, no entanto, sua análise por meio de métodos manuais que utiliza linguagens de consultas tradicionais é inviável. Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados.

Quando a escala da manipulação de dados, exploração e inferência desenvolvem-se além das capacidades humanas, faz-se necessário a criação de uma nova geração de teorias computacionais e o desenvolvimento de ferramentas que auxiliem o homem na análise e interpretação dessa grande quantidade de dados para extrair conhecimento útil dentro do contexto da aplicação no processo de tomada de decisão.

Neste contexto, surge a área denominada Descoberta de Conhecimento em Bases de Dados ou Knowledge Discovery in Databases (KDD). A etapa mineração de dados é considerada a principal etapa do processo de KDD e o núcleo central do processo de prospecção de conhecimento, sendo composto pelos métodos de mineração de dados responsáveis pela extração e busca efetiva de conhecimento explícito e potencialmente útil dos dados.

Nesta etapa que são aplicados as técnicas e os algoritmos a serem utilizados no problema em questão, de forma a extrair modelos de dados. A escolha da técnica a ser utilizada no processo de mineração de dados depende exclusivamente do tipo de tarefa de KDD a ser efetivamente realizada.

Atualmente, encontram-se comercialmente disponíveis diversas ferramentas de mineração de dados ou Data Mining que auxiliam cientistas a classificar e segmentar dados, formular hipóteses, realizar diagnósticos. Auxiliam analistas a entender e prever necessidades e interesses dos clientes, descobrirem perfis de comportamento. Auxiliam na detecção de fraudes, aprovação de crédito e de apólice, dão apoio a investimentos. Na área de internet auxiliam no mecanismo de busca inteligente e web marketing.

Neste contexto, este artigo aborda as principais tarefas e técnicas de mineração de dados. A tarefa de clusterização e o algoritmo K-means são apresentados com mais detalhes. Um estudo de caso, para grandes empresas varejistas é ilustrado. Para isso, inicialmente são definidos os conceitos utilizados neste artigo tais como, mineração de dados, tarefas de mineração e mais especificamente a tarefa Clusterização. Em seguida é apresentado o algoritmo K-means. Por fim, apresentamos um exemplo prático de uso do algoritmo.

Mineração de Dados e Tarefas de Mineração

O termo KDD foi formalizado em 1989 em referência ao amplo conceito de procurar conhecimento a partir de bases de dados. Uma das definições mais populares foi proposta em 1996 por um grupo de pesquisadores. KDD é um processo, de várias etapas, não-trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos, potencialmente úteis a partir de grandes conjuntos de dados.

Para que se possa realizar o processo de KDD, torna-se necessária algumas fases como pré-processamento, mineração de dados e pós-processamento.

O pré-processamento é de fundamental relevância no processo de descoberta de conhecimento, pois a qualidade dos dados vai determinar a eficiência do algoritmo. O principal objetivo dessa etapa consiste em solucionar problemas nos dados tais como eliminar dados redundantes e inconsistências, recuperar dados incompletos e avaliar possíveis dados discrepantes ao conjunto. São utilizados também métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo de KDD, ao visar à melhora no desempenho do algoritmo. É de fundamental importância nessa etapa do processo de KDD o auxílio do especialista no domínio da aplicação, pois estas pessoas detêm o chamado conhecimento prévio sobre o problema e influenciam desde a definição dos objetivos do processo até a avaliação dos resultados. Essa etapa tem como objetivo a preparação dos dados para os algoritmos da etapa da Mineração de Dados.

...
Quer ler esse conteúdo completo? Tenha acesso completo