Aspectos teóricos da mineração de dados e aplicação das regras de classificação para apoiar o comércio

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Resumo

Entre v�rias quest�es estrat�gicas que giram em torno de uma organiza��o, pode-se dizer que a capacidade de analisar e reagir rapidamente �s mudan�as impostas pelo mercado, esta diretamente relacionada � capacidade de digerir as informa��es e transform�-las em conhecimento.

A utiliza��o da minera��o de dados pode trazer diversos benef�cios as empresas e organiza��es. Para isso, existem importantes t�cnicas que auxiliam nesse processo, dentre as quais se destacam as regras de Classifica��o e associa��o. Partindo dessa observa��o, definiu-se como objetivo geral, aplicar as t�cnicas de minera��o de dados a um subconjunto de dados de uma empresa varejista.

1. Introdu��o

Com avan�o na coleta e no armazenamento de dados, permitiu-se que organiza��es acumulassem em base de dados uma enorme quantidade de informa��es. Entretanto, a extra��o de conhecimento nesses dados, tem provado ser extremamente desafiador. Normalmente, t�cnicas tradicionais de an�lise de dados n�o podem ser usadas devido ao tamanho do conjunto de dados ser muito grande. Em outras situa��es a natureza n�o trivial dos dados significa que abordagens tradicionais n�o podem ser aplicadas.

Diversas organiza��es, por exemplo, a Wal-Mart, TAM linhas �reas, IBGE e a NASA, det�m em seu departamento de tecnologia bases de dados de centenas de terabytes de informa��es. Sabendo-se que o armazenamento do maior volume poss�vel de informa��es � ben�fico para os seus processos, � aceit�vel deduzir que a dificuldade de interpretar e analisar esses dados s�o diretamente proporcionais � quantidade dos mesmos.

Diversas pesquisas t�m sido direcionadas para o desenvolvimento de t�cnicas com objetivo de extrair informa��es a partir de um grande volume de dados e transformar estas informa��es em conhecimento �til. Esta �rea � conhecida na literatura como KDD (Fayyad et al., 1996b).

O processo de KDD surgiu no final da d�cada de 80 com o objetivo principal de procurar conhecimento em bases de dados. H� v�rias defini��es do seu conceito, sendo a seguinte defini��o a mais utilizada:

�KDD � um processo, de v�rias etapas, n�o trivial, interativo e iterativo, para identifica��o de padr�es compreens�veis, v�lidos, novos e potencialmente �teis a partir de grandes conjuntos de dados� (FAYYAD, 1996).

Este processo pode identificar padr�es e descobrir informa��es relevantes que auxiliam o comerciante no processo de forma��o de pre�os, nas estrat�gias de marketing, no comportamento de clientes em rela��o �s compras, entre outras coisas.

A fase de minera��o de dados � onde realmente se extrai as informa��es atrav�s de algoritmos que executam uma determinada tarefa, consequentemente gerando um padr�o entre itens em uma base de dados.

Este artigo est� estruturado da seguinte forma: na se��o 2 s�o apresentados os conceitos a cerca da descoberta de conhecimento (KDD), minera��o de dados e a tarefa de Classifica��o. S�o apresentados na se��o 3 os experimentos e resultados. Por fim n�o se��o 4 apresentam-se as conclus�es.

2. Descoberta de Conhecimento em Bases de Dados(KDD)

A minera��o de dados n�o foi criada com objetivo de substituir as t�cnicas atuais de an�lise de dados. Ela utiliza como base para a maioria de seus trabalhos os experimentos da Estat�stica, Intelig�ncia Artificial, M�quina de Estado e Banco de dados para construir seu modelo.

O desejo dos pesquisadores em minera��o de dados de trazer tais t�cnicas existentes tem contribu�do para amplitude do campo, assim como seu r�pido crescimento.

O termo KDD surgiu no final da d�cada de 80, com objetivo de procurar conhecimento em bases de dados. Muitas s�o as defini��es para este conceito, sendo a seguinte defini��o a mais utilizada:

A express�o �n�o trivial�, demonstra a complexidade na execu��o e manuten��o dos processos de KDD, o termo �interativo� indica a relev�ncia de se ter um elemento controlando o processo, o termo �iterativo� sugere a possibilidade de repeti��es em qualquer uma das etapas do processo e finalmente o �conhecimento �til� que � aquele onde o objetivo foi alcan�ado, trazendo consigo benef�cios as aplica��es de KDD.

A extra��o de conhecimento em bases de dados � um processo din�mico e evolutivo, que envolve relacionamento com outras �reas como estat�stica, intelig�ncia artificial, maquina de estado e banco de dados. Os padr�es extra�dos devem ser �teis, gerando um conhecimento que poder� tirar alguma vantagem, seja cientifica ou comercial.

De acordo com FAYYAD et al. (1996), o processo de KDD � constitu�do de diversas fases, explicadas na figura 1, e tem in�cio na an�lise do dom�nio da aplica��o e dos objetivos a serem realizados, sendo este processo dividido em 5 fases:

Sele��o de dados;
Pr�-processamento;
Transforma��o;
Minera��o;
An�lise e assimila��o de resultados

2.1 FASES DO KDD

A primeira etapa do processo consiste na escolha da base a ser minerada, podendo ser amostras de dados, subconjuntos de vari�veis at� grandes massa de dados. A fase de pr�-processamento tem como objetivo eliminar ru�dos, tuplas vazias, valores ileg�timos. A etapa de transforma��o dos dados depende do objetivo da busca e do algoritmo a ser aplicado, pois � ele que possui as limita��es a serem impostas a base de dados. A melhoria na qualidade dos dados � importante para que haja um melhor resultado, garantindo assim uma melhor qualidade nos padr�es descobertos.

Ap�s a realiza��o fases anteriores, a minera��o de dados (Data Mining) � aplicada. Essa fase � a mais importante do processo de KDD, sendo nela utilizado algum algoritmo que utiliza uma determinada t�cnica, e que tem como objetivo elaborar um modelo para representar um conjunto de dados.

A Interpreta��o ou P�s-Processamento � a fase que identifica, entre os padr�es extra�dos na etapa de Data Mining. Esta fase envolve todos os participantes que avaliam de forma criteriosa os resultados. � importante interpretar os padr�es minerados, possivelmente retornando a qualquer fase anterior para novas itera��es, caso seja necess�rio, a fim de apresentar o conhecimento descoberto ao usu�rio. A Figura 1 apresenta as atividades que comp�em o processo de KDD.

2.2 MINERA��O DE DADOS

Minera��o de Dados ou Data Mining � o principal processo da fase de descoberta de conhecimento em bases de dados para extra��o de conhecimento, baseando-se em t�cnicas da estat�stica, intelig�ncia artificial, computa��o paralela, m�quina de estado, ela constr�i um longo hist�rico de pesquisas relacionadas a estas �reas. Procurando por padr�es, relacionamentos entre dados, anomalias e regras, com objetivo de encontrar informa��es ocultas, que possam ser relevantes a tomada de decis�o e/ou avalia��o de resultados.

Uma das motiva��es para a utiliza��o da minera��o de dados no com�rcio � a grande quantidade de dados armazenados eletronicamente, os varejistas podem juntar os dados do ponto de venda (leitores de c�digo de barras) com informa��es de registros web, registros de atendimentos entre outros para lhes auxiliar a compreender melhor as necessidades de seus clientes e a tomar decis�es de neg�cio com mais informa��es precisas. Em outras palavras, descobrir informa��es sem uma pr�via formula��o de hip�teses e buscar por algo n�o intuitivo, � na verdade tornar dados sem obviedade em valiosas informa��es estrat�gicas.

Figura 1: Etapas do KDD (Fonte: Fayyad et al., 1996)

2.3 TAREFAS DE MINERA��O DE DADOS

As tarefas da minera��o de dados s�o os tipos de descoberta que se pretende realizar em uma base de dados, isto �, s�o as informa��es que se deseja extrair. Para determinar qual tarefa a ser resolvida, deve-se ter um bom conhecimento do dom�nio da aplica��o e saber o tipo de informa��o que se quer obter (FAYYAD, 1996; JOHN, 1997):

A deﬁni��o da t�cnica de minera��o a ser aplicada est� intimamente relacionada com a tarefa de minera��o que se deseja executar, j� que essa tarefa deﬁne o relacionamento entre os dados, ou seja, o modelo. Existem diversas tarefas da minera��o de dados entre elas: classiﬁca��o, clusteriza��o, regress�o e associa��o.

Um breve resumo das tarefas mais importantes s�o descritos a seguir.

A tarefa de associa��o foi desenvolvida inicialmente por Agrawal et al. (1993). E tem como objetivo principal encontrar padr�es do tipo X→Y, ou seja, o quanto X implica em Y onde X e Y s�o conjuntos distintos. Por exemplo, um cliente que compra o item A freq�entemente compra tamb�m o item B. Atrav�s dessa tarefa pode-se estimar que um conjunto de item �X� possui uma tend�ncia a se repetir freq�entemente em conjunto com um valor �Y�. Esta implica��o � avaliada atrav�s de dois fatores: suporte e confian�a. (Agrawal e Srikant, 1994).

A tarefa de Agrupamento, tamb�m denominada de clusteriza��o ou segmenta��o, � utilizada para dividir os dados em grupos (clusters). O objetivo � que os objetos dentro de um grupo sejam semelhantes e diferentes de outros objetos de outros grupos. Quanto maior a semelhan�a dentro de um grupo e maior a diferen�a entre grupos, melhor ou mais distinto ser� o agrupamento (TAN, STEINBACH, KUMAR, 2006).

Pode-se, por exemplo, utilizar essa tarefa para analisar dados de tratamentos de uma doen�a, dividindo-se em grupos baseados na semelhan�a dos efeitos colaterais produzidos.

2.4 CLASSIFICA��O

A tarefa de Classifica��o � uma tarefa da minera��o de dados que associa ou classifica objetos a determinadas classes, ela busca prever uma classe de um novo dado automaticamente. Por exemplo, uma base de dados que armazena caracter�sticas de clientes, baseando em hist�ricos de transa��es anteriores, podem-se classificar estes clientes em categorias para libera��o de cr�dito. Um novo cliente poder� ser classificado em uma das categorias definidas, de acordo com suas caracter�sticas.

Na pr�xima Se��o ser� demonstrado detalhadamente todo o processo de KDD, focando na fase de Data Mining e utilizando-se o algoritmo de classifica��o.

3 EXPERIMENTOS E RESULTADOS

Todo o processo de extra��o de conhecimento em bases de dados � evidenciado de fato, com os experimentos utilizando uma base de dados proveniente de uma empresa atuante na �rea do com�rcio varejista, optante por um acordo NDA(Non-Disclosure Agreement). O software de minera��o de dados utilizado para realizar a gera��o de padr�es �teis foi o N�cleo DM. Desenvolvido em Delphi, este software trabalha com o algoritmo de Classifica��o C4.5.

De acordo com o conhecimento adquirido na Se��o 2.1, o in�cio do processo de KDD encontra-se na escolha da massa de dados de acordo com os objetivos a serem alcan�ados, que neste caso, seria a descoberta de perfis dos clientes, buscar padr�es que gerem regras do tipo: Cliente que compra produdo X, provavelmente levar� o produto Y ex: �Se Produto1 = refrigerante ent�o Produto2 = suco de laranja�.

Ap�s an�lise do banco de dados, foi selecionado uma amostra de 268.788 registros identificando o faturamento das vendas realizadas no per�odo de 04 de Fevereiro de 2011 a 11 de Abril 2011. Os atributos necess�rios ao processo de minera��o de dados est�o destacados na Tabela 1.

ATRIBUTO	DESCRI��O	VALORES DISTINTOS
LINHAPROD	Linha no qual o produto foi classificado	8
SEXO	Sexo do cliente	2
EST_CIVIL	Estado civil do cliente	4
SALARIO	Faixa de sal�rio do cliente	3
IDADE	Faixa et�ria do cliente	3

Tabela 1: Atributos da base de dados submetidos � minera��o.

Alguns atributos do cliente, para poderem ser utilizados, tiveram que ser discretizados.

O atributo LINHAPROD representa o grupo no qual os produtos foram classificados, com 8 valores discretizados. Brinquedos, Eletrodom�sticos, M�quinas, M�veis e Decora��o, Multim�dia, Telefonia Convencional, Telefonia M�vel, Bazar. O atributo Sal�rio foi discretizado para Baixo, M�dio e Alto. O atributo Idade tamb�m foi discretizado para facilitar o processo de Minera��o de dados. Veja na Tabela 2 o resumo das discretiza��es feita para a tarefa de classifica��o.

SAL�RIO		IDADE
Intervalo com valores cont�nuos	Valor Nominal	Intervalo com valores cont�nuos	Valor Nominal
200 - 500	BAIXO	19 - 30	JOVEM
501 - 1200	M�DIO	31 - 50	ADULTO
1201 - 100000	ALTO	51 - 100	SENIOR

Tabela 2: Atributos da Base de dados submetidos � minera��o.

A fase de Pr�-processamento, com intuito de eliminar tuplas nulas, valores considerados inconsistentes ou errados, definidos como ru�do, e diminu�rem redund�ncias, reduziu para 252.677 tuplas, sendo posteriormente convertido para o padr�o utilizado no software N�cleo DM. Nessa ferramenta, exp�s-se ao processo de minera��o de dados, utilizando-se o algoritmo de Classifica��o C4.5 (QUINLAN, 1993).

Para executar a tarefa de classifica��o foi escolhido com atributo preditivo o campo (LINHAPROD) e o crit�rio de parada foi de 75%. Para escolher o crit�rio de parada foram testados varias faixas de valores, e a faixa de 75% foi o que apresentou os melhores resultados, por n�o gerar uma �rvore muito grande e aparentemente com resultados relevantes.

Figura 2: Atributos selecionados para classifica��o

Os resultados da classifica��o e a �rvore gerada s�o exibidos nas figura 3.

Figura 3: Regras de classifica��o gerada

Para a extra��o dos conhecimentos, que foram gerados pela tarefa de classifica��o por linha de produtos, selecionaram-se as regras mais representativas de cada linha de produto, mostradas a seguir.

Listagem 1: Regras mais representativas da linha M�veis e Decora��o

SE SEXO = MASCULINO 
     E SALARIO = MEDIO (501-1200) 
ENT�O LINHAPROD = MOVEIS E DECORACAO ( Q.1237 / R.6,35% / P.30,05% ) 
----------------------------------------------------------------------------------------------------------
SE SEXO = FEMININO 
     E ESTCIVIL = CASADO 
         E IDADE = SENIOR (51-100) 
             E SALARIO = BAIXO (200-500) 
ENT�O LINHAPROD = MOVEIS E DECORACAO ( Q.293 / R.1,51% / P.33,91% )
---------------------------------------------------------------------------------------------------------- 
SE SEXO = FEMININO 
     E ESTCIVIL = VIUVO 
         E IDADE = SENIOR (51-100) 
             E SALARIO = MEDIO (501-1200) 
ENT�O LINHAPROD = MOVEIS E DECORACAO ( Q.134 / R.0,69% / P.34,1% )

Listagem 2: Regras mais representativas da linha Eletrodom�sticos


SE SEXO = FEMININO 
     E ESTCIVIL = CASADO 
         E IDADE = ADULTO (31-50) 
             E SALARIO = BAIXO (200-500) 
ENT�O LINHAPROD = ELETRODOMESTICOS ( Q.655 / R.3,37% / P.33,73% ) 
SE SEXO = FEMININO 
     E ESTCIVIL = SOLTEIRO 
         E SALARIO = BAIXO (200-500) 
             E IDADE = JOVEM (19-30) 
ENT�O LINHAPROD = ELETRODOMESTICOS ( Q.465 / R.2,39% / P.33,79% ) 
SE SEXO = FEMININO 
     E ESTCIVIL = SOLTEIRO 
         E SALARIO = MEDIO (501-1200) 
ENT�O LINHAPROD = ELETRODOMESTICOS ( Q.391 / R.2,01% / P.33,11% )

Listagem 3: Regras mais representativas da linha Telefonia M�vel

 
SE SEXO = MASCULINO 
     E SALARIO = BAIXO (200-500) 
         E IDADE = JOVEM (19-30) 
             E ESTCIVIL = SOLTEIRO 
ENT�O LINHAPROD = TELEFONIA MOVEL ( Q.407 / R.2,09% / P.34,67% ) 
SE SEXO = MASCULINO 
     E SALARIO = BAIXO (200-500) 
         E IDADE = ADULTO (31-50) 
             E ESTCIVIL = SOLTEIRO 
ENT�O LINHAPROD = TELEFONIA MOVEL ( Q.127 / R.0,65% / P.31,05% ) 
SE SEXO = MASCULINO 
      E SALARIO = BAIXO (200-500) 
          E IDADE = SENIOR (51-100) 
              E ESTCIVIL = CASADO 
ENT�O LINHAPROD = TELEFONIA MOVEL ( Q.102 / R.0,52% / P.28,41% )

4 CONSIDERA��ES FINAIS

Ap�s o processamento e a obten��o dos padr�es obtidos na execu��o da minera��o de dados, as regras geradas pelo software foram validados com a empresa. Segundo os mesmos, 3 regras apresentam um conhecimento novo, j� que n�o haviam identificado que no segmento M�veis e Decora��es, tinham uma maior venda entre indiv�duos do sexo masculino e sal�rio m�dio, e clientes feminino com idade avan�ada. No caso da linha de eletrodom�sticos j� era de conhecimento da empresa que os clientes em potencial era do sexo feminino, por�m n�o era de conhecimento que possu�am uma grande representatividade as mulheres casadas, com idade entre 31 e 50 anos e sal�rio baixo.

Com os resultados obtidos demonstrou-se, na pr�tica, como as diversas tecnologias ligadas ao processo de descoberta de conhecimento em bases de dados podem apoiar as tomadas de decis�es, de forma a manter as organiza��es competitivas com rela��o � concorr�ncia e, principalmente, manterem-se no mercado.

REFER�NCIAS

FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. Artificial Intelligence Magazine, v. 17, n. 3, p. 37-54, 1996a.
Tan, P.-N., Steinbach, M., and Kumar, V. (2005). Introduction to Data Mining. Addison Wesley, us ed edition.
AGRAWAL, R. & SRIKANT, R. Fast algorithms for mining association rules. Proc. of the 20th Int�l Conference on Very Large Databases. Santiago, Chile, 1994.
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann. San Francisco, CA.