Mineração de Dados usando KDD: Introdução

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Por que eu devo ler este artigo:Com o avan�o das tecnologias, presenciamos um enorme crescimento na capacidade das pessoas em gerar e coletar dados. Esse grande volume de dados vem ultrapassando a capacidade humana de interpretar e compreender tanta informa��o. Isso impulsionou o desenvolvimento do processo para a descoberta de conhecimento em base de dados, que � baseado na busca, an�lise e interpreta��o de padr�es �teis, retirados de grandes bases de dados. Uma das etapas principais dentro do Processo de Descoberta de Conhecimento � a aplica��o da t�cnica de minera��o de dados. Esta t�cnica � usada para transformar grandes volumes de dados em informa��es significativas para o planejamento, a gest�o e a tomada de decis�o.

Nesta primeira parte do artigo conheceremos algumas defini��es introdut�rias na �rea de minera��o de dados.

Na an�lise do grande volume de dados presente nas organiza��es nos dias atuais. Esta quantidade ultrapassou a capacidade humana de interpretar e compreender tanta informa��o. Para isso, � importante conhecer e saber como utilizar t�cnicas de minera��o de dados.

Com o avan�o das tecnologias, presenciamos um enorme crescimento na capacidade das pessoas em gerar e coletar dados, sejam esses dados administrados pelo governo, pela comunidade ou pelas entidades de pesquisa. Esse grande volume de dados vem ultrapassando a capacidade humana de interpretar e compreender tanta informa��o.

O enorme crescimento das empresas e a forte concorr�ncia entre elas instiga a busca por um melhor aproveitamento das informa��es, fazendo com que a necessidade de novas ferramentas e t�cnicas para manipula��o e armazenagem de dados sejam criadas. Nesse contexto, as empresas t�m, ao seu alcance, uma enorme oportunidade para compreender, por meio de seu pr�prio reposit�rio de dados, o andamento de seus neg�cios, visando melhorar a competitividade no mercado.

Isso impulsionou o desenvolvimento do processo para a descoberta de conhecimento em base de dados � KDD (Knowledge Discovery in Database), que � baseado na busca, an�lise e interpreta��o de padr�es �teis, retirados de grandes bases de dados. V�rios estudos est�o sendo realizados nesta �rea, a fim de aprimorar este processo e tornar sua aplica��o mais acess�vel, compreens�vel e eficaz, garantindo que a retirada de informa��es seja feita de forma consistente.

Com isso, surge na d�cada de 80, a Data Mining, tamb�m chamada de Minera��o de Dados, que � uma das etapas principais dentro do Processo de Descoberta de Conhecimento, originada de �reas como Estat�stica, Intelig�ncia Artificial e Banco de Dados. A t�cnica � usada para transformar grandes volumes de dados em informa��es significativas para o planejamento, a gest�o e a tomada de decis�o.

A minera��o de dados est� sendo cada vez mais aplicada nas mais diversas �reas. Na medicina para prever paciente com maior probabilidade de contrair uma doen�a espec�fica, com base nos dados hist�ricos dos pacientes. Na telecomunica��o, para identificar fraudes em liga��es telef�nicas, dentre um enorme n�mero de liga��es efetuadas pelos clientes. No mercado financeiro, para prever as a��es que estar�o em alta na bolsa de valores, em fun��o do hist�rico de pre�os das a��es e valores de �ndices financeiros.

Embora as aplica��es mais comuns de minera��o de dados se refiram a clientes, compras e vendas, esta �rea � ampla e tem sido aplicada no setor educacional. As institui��es de ensino tiveram, nos �ltimos tempos, uma amplia��o, tanto de cursos, quanto de vagas. Desta forma, os respons�veis precisam ter a preocupa��o de acompanhar a perman�ncia desses alunos nos cursos ofertados. Para que o �ndice de conclus�o de cursos aumente � necess�rio identificar os fatores que levaram ao insucesso dos estudantes. A minera��o de dados trouxe uma grande contribui��o para esse quesito, pois atrav�s de informa��es escondidas em bases de dados, � poss�vel descobrir os principais fatores que influenciam a conclus�o, a evas�o, ou at� mesmo o tempo m�dio para concluir um curso. Obtendo esse relat�rio geral dos problemas encontrados nas escolas, os respons�veis podem realizar medidas efetivas para melhorar o ensino em suas institui��es e, consequentemente, em todo o pa�s.

A aplica��o do KDD e, especificamente da etapa de Data Mining, pode ser de enorme import�ncia para todas as �reas que necessitem retirar informa��es de uma base forte e concreta de dados. Com isso, ao aplicar a t�cnica em uma base de dados institucional, � poss�vel retirar das mesmas informa��es relevantes para tomada de decis�es que ajudam na solu��o de um problema, ou aperfei�oamento de t�cnicas j� usadas para administrar recursos de qualquer ordem.

Nesta primeira parte do artigo conheceremos algumas defini��es introdut�rias na �rea de minera��o de dados.

Para isso, ser�o apresentados a partir de agora os conceitos relacionados ao processo de descoberta de conhecimento em bases de dados (KDD), com �nfase na etapa de minera��o de dados. Ser� destacado tamb�m as ferramentas que servir�o de apoio ao processo de descoberta de conhecimento em bases de dados, tais como Weka, Data Warehouses, Data Marts, e DTS.

Dados, Informa��o e Conhecimento

Dados, informa��o e conhecimento s�o um conjunto que tem sido um importante fator de competitividade, aumento da produtividade e da qualidade em diferentes tipos de organiza��es.

Os dados tratados isoladamente representam um ou mais itens que n�o podem transmitir mensagens �teis. Para que estes dados se tornem �teis, passando alguma informa��o, � necess�rio que as pessoas atuem sobre eles.

A informa��o s�o os dados tratados, que se forem devidamente processados s�o providos de um determinado significado e contexto para o sistema. A informa��o � um fluxo de mensagens e por meio dela n�o s� se extrai, como tamb�m se constr�i o conhecimento.

O conhecimento, al�m de ter um significado, tamb�m possui uma aplica��o. Constitui um saber, produz ideias e experi�ncias que as informa��es por si s� n�o seriam capazes de mostrar.

O Processo de Descoberta de Conhecimento em Bases de Dados (KDD)

A extra��o de conhecimento em bases de dados - Knowledge Discovery in Databases (KDD) teve in�cio nos anos 70, tendo como objetivo adquirir conhecimento das bases de dados acumuladas. O termo foi formalizado em 1989, englobando recursos de reconhecimento de padr�es, estat�stica, m�quinas de aprendizado e m�todos de visualiza��o. Uma das defini��es mais populares foi proposta em 1996, por um grupo de pesquisadores: �KDD � um processo, de v�rias etapas, n�o trivial, interativo e iterativo, para identifica��o de padr�es compreens�veis, v�lidos, novos e potencialmente �teis a partir de grandes conjuntos de dados.�

O KDD � usado na �rea financeira, telefonia, franquia de Fast-Food, a��o social, educa��o, �rea m�dica, �rea financeira, arrecada��o de impostos, �rea de seguros, �rea de produ��o e diversos outros tipos de bancos de dados. A Figura 1 mostra detalhadamente as etapas de KDD da fonte de dados inicial at� o processo de extra��o de conhecimento.

**Figura 1.** Etapas do processo de extra��o do conhecimento.

O processo KDD e suas etapas:

O processo de KDD pode ser dividido em tr�s etapas operacionais: pr�-processamento, minera��o de dados e p�s-processamento.

Uma breve descri��o destas etapas � apresentada a seguir:

Pr�-processamento

A etapa de pr�-processamento compreende a obten��o, organiza��o e tratamento dos dados. Inicia-se a sele��o dos dados, ou seja, a partir de um crit�rio definido pelo especialista do dom�nio faz-se a sele��o de um conjunto de dados considerados importantes para a organiza��o. Na maioria das vezes, os dados para an�lise encontram-se em um formato inadequado para realiza��o do processo de KDD. Para solucionar esse problema � necess�rio aplicar m�todos de tratamento para fazer a limpeza dos mesmos.

As principais fun��es de pr�-processamento dos dados s�o:

Sele��o de dados: � necess�rio efetuar nessa fun��o a identifica��o de quais informa��es existentes na base de dados devem ser efetivamente consideradas durante o processo de KDD. Por exemplo, para uma aplica��o cujo objetivo seja construir o modelo que preveja o comportamento de novos clientes quanto aos pagamentos de futuros cr�ditos a eles concedidos, o nome do cliente � uma informa��o irrelevante. Por outro lado, a data de nascimento � fundamental em um modelo para estimar o valor de uma ap�lice de seguro para esse cliente. Ou seja, a sele��o de dados pode ter dois enfoques distintos: a escolha de atributos ou a escolha de registros considerados no processo de KDD.

Limpeza de dados: � realizada uma esp�cie de tratamento sobre os dados, com o intuito de assegurar a qualidade relacionada � completude, veracidade e integridade sobre os mesmos, ou seja, informa��es err�neas ou inconsistentes nas bases de dados devem ser corrigidas, de forma a n�o comprometer o conhecimento a ser extra�do no final do processo de KDD. Por exemplo, caso surgisse qualquer valor diferente dos definidos num intervalo de poss�veis valores para um determinado atributo, o registro contendo esse dado poderia ser removido.

Codifica��o dos Dados: Opera��o respons�vel pela forma como os dados ser�o representados durante o processo de KDD. Os dados devem ser codificados de forma a atender �s necessidades espec�ficas dos algoritmos de minera��o. Por exemplo, uma rede neural requer dados num�ricos. Caso a base de dados a ser processada apresente valores nominais, esses devem ser codificados antes de serem submetidos � rede.

Enriquecimento dos dados: Agrega mais informa��es aos registros existentes, enriquecendo os dados, para que estes forne�am mais informa��es para o processo de KDD. Podem ser realizadas as pesquisas para complementa��o dos dados, as consultas �s bases de dados externas, entre outras t�cnicas. Outro ponto importante a ser considerado na etapa de pr�-processamento � que, em virtude das restri��es de espa�o em mem�ria, ou tempo de processamento com rela��o ao n�mero de exemplos e de atributos dispon�veis para a an�lise, ocorrer inviabiliza��o da utiliza��o de algoritmos de extra��o de padr�es, sendo necess�ria a aplica��o de m�todos de redu��o de dados antes de se iniciar a busca pelos padr�es.

Data Mining (Minera��o de Dados)

O processo ser� visto na pr�xima se��o deste artigo.

P�s-Processamento

A etapa de p�s-processamento compreende a visualiza��o, an�lise e interpreta��o da etapa de minera��o. Nessa etapa, o analista/especialista em KDD verifica os resultados obtidos na etapa anterior e faz uma an�lise para a transforma��o do conhecimento em novas alternativas de uso de informa��es. Os padr�es extra�dos podem ser simplificados, avaliados, visualizados ou simplesmente documentados para o usu�rio final.

Um ponto importante a se destacar no p�s-processamento � que o especialista no dom�nio da aplica��o representa a pessoa ou o grupo de pessoas que conhece o assunto em que dever� ser realizada a aplica��o de KDD. Em geral, pertencem a esta classe analistas de neg�cio interessados em identificar novos conhecimentos que possam ser utilizados em sua �rea de atua��o. Costumam deter o chamado conhecimento pr�vio sobre o problema (background knowledge). As informa��es prestadas pelas pessoas deste grupo s�o de fundamental import�ncia no processo de KDD, pois influenciam desde a defini��o dos objetivos do processo at� a avalia��o dos resultados.

Data Mining

Data Mining � a etapa do KDD que consiste na aplica��o de algoritmos espec�ficos que extraem padr�es a partir dos dados. Originalmente, essa t�cnica deriva das �reas de estat�stica, intelig�ncia artificial e banco de dados, e tem como objetivo explorar grande quantidade de dados na busca de padr�es consistentes.

Historicamente, a minera��o de dados surgiu com a evolu��o dos bancos de dados, em meados dos anos 80 em diante, quando as organiza��es conseguiram armazenar grandes quantidades de dados. Nos anos 90 percebeu-se que esses dados estavam sendo subutilizados e, com isso, surgiu a ideia de us�-los de forma estrat�gica para a descoberta de novas informa��es. Essa, por�m, n�o era uma tarefa f�cil. As empresas t�m bancos com trilh�es de registros, com centenas de atributos, que devem ser analisados simultaneamente. Com isso, surgiu a t�cnica que recebeu o nome de minera��o de dados.

As t�cnicas da minera��o de dados passaram a ser usadas como explora��o desses dados, por v�rios motivos:

O volume de dados dispon�vel atualmente � enorme: minera��o de dados � uma t�cnica que necessita de grande volume de dados para calibrar seus algoritmos e extrair dos dados conclus�es confi�veis. Grandes �reas como: empresas de telefonia, cart�es de cr�dito, bancos, televis�o por assinatura, com�rcio eletr�nico, entre outras, geram a cada dia uma grande quantidade de dados sobre seus servi�os e clientes. Estes dados s�o pass�veis de an�lise por minera��o;

Os dados est�o sendo organizados: os dados de v�rias fontes est�o sendo organizados e padronizados com a tecnologia de data warehouse. As t�cnicas de minera��o de dados necessitam de bancos de dados limpos, com organiza��o e padronizados;

Os recursos computacionais est�o cada vez mais potentes: para operar seus algoritmos, a minera��o de dados necessita de v�rios recursos computacionais, sobre grandes quantidades de dados. O aumento da pot�ncia computacional, conforme a queda dos pre�os dos computadores e ao grande avan�o tecnol�gico, facilita o uso da minera��o de dados atualmente. Outro fato que tamb�m auxiliou muito a minera��o de dados � a constru��o de bancos de dados distribu�dos;

A competi��o empresarial exige t�cnicas mais modernas de decis�o: diversas empresas, tais como a �rea de finan�as, telecomunica��es e seguro, experimentam, a cada dia, mais competi��es. Como estas empresas sempre conservaram em seus bancos de dados uma enorme quantidade de informa��o, � natural que a minera��o de dados tenha se iniciado dentro de seus limites. Atualmente, outras empresas buscam adquirir dados para analisar melhor seus caminhos futuros atrav�s dos sistemas de apoio � decis�o. Com o fato de que as empresas precisam saber que servi�o oferecer e a quem, a aquisi��o de dados � um fator importante. Para outras empresas, at� a venda das informa��es pode ser um produto;

Programas comerciais de minera��o de dados j� podem ser adquiridos: as t�cnicas de minera��o de dados, por mais que sejam antigas conhecidas da intelig�ncia artificial, apenas recentemente sa�ram dos laborat�rios para as empresas.

T�cnicas de Data Mining

Com a minera��o de dados, podem ser realizadas algumas tarefas, como:

Descri��o (Description): essa tarefa � muito utilizada juntamente com as t�cnicas de an�lise explorat�ria de dados para comprovar a influ�ncia de determinadas vari�veis no resultado obtido. Ela descreve padr�es e tend�ncias que s�o revelados pelos dados, oferecendo geralmente uma poss�vel interpreta��o para os resultados obtidos;
Classifica��o (Classification): uma das tarefas mais comuns, ela identifica a qual classe pertence um determinado registro. Na classifica��o, o modelo ir� analisar o conjunto de registros fornecidos, com cada registro j� contendo a indica��o de qual classe pertence, com a finalidade de �aprender� a classificar novos registros (aprendizado supervisionado). A tarefa de classifica��o pode ser aplicada como, por exemplo, nas seguintes situa��es:
- detectar fraude em uma transa��o de cart�o de cr�dito;
- identificar em uma escola, qual a turma mais indicada para um determinado aluno;
- diagnosticar onde uma determinada doen�a pode estar presente;
- identificar quando uma pessoa pode ser uma amea�a para a seguran�a.
Estima��o (Estimation) ou Regress�o (Regression): a estima��o � similar � classifica��o, por�m � usada quando o registro � identificado n�o por um valor categ�rico, e sim por um valor num�rico. Assim, pode-se estimar o valor de uma determinada vari�vel analisando-se os valores das demais. Como exemplo, considere: v�rios registros contendo os valores mensais de acordo com os h�bitos de cada consumidor e gastos. Ap�s a an�lise dos dados, o modelo � capaz de dizer qual ser� o valor gasto por um novo consumidor. A tarefa de estima��o pode ser usada, por exemplo, para as seguintes situa��es:
- estimar a quantia a ser gasta com materiais escolares por uma fam�lia de quatro pessoas durante a volta �s aulas;
- estimar a press�o ideal de um paciente baseando-se na idade, sexo e massa corporal.
Predi��o (Prediction): a tarefa de predi��o � similar �s tarefas de classifica��o e estima��o; por�m, visa descobrir o valor futuro de um determinado atributo. Exemplos:
- predizer o valor de uma a��o tr�s meses adiante;
- se a velocidade de uma rede aumentar, predizer qual o percentual que ser� aumentado de tr�fego;
- baseado nas compara��es das estat�sticas dos times, predizer qual o vencedor do campeonato.
Agrupamento (Clustering): a tarefa de agrupamento visa identificar e aproximar os registros similares. Um agrupamento (ou cluster) � formado por diversos registros similares entre si, mas diferentes dos outros registros nos demais agrupamentos. Esta tarefa � diferente da classifica��o, pois n�o necessita que os registros sejam previamente categorizados. Ela tamb�m n�o tem a pretens�o de estimar, classificar ou predizer o valor de uma determinada vari�vel, apenas identifica os grupos similares. Alguns exemplos s�o:
- segmenta��o de mercado para um nicho de produtos;
- separa��o de comportamentos suspeitos, para auditoria;
- redu��o de registros com centenas de atributos para um conjunto de atributos similares.
Associa��o (Association): � uma das tarefas mais conhecidas devido aos bons resultados obtidos, principalmente nas an�lises das "Cestas de Compra�, onde identificamos quais produtos s�o levados juntos pelos consumidores.

A tarefa de associa��o tem a finalidade de identificar quais atributos est�o relacionados, e formar regras a partir dessas informa��es para que sejam utilizadas por um analista para gera��o de novos conhecimentos. As regras s�o representadas pela nota��o: SE atributo X ENT�O atributo Y, onde X e Y s�o conjuntos de valores (sintomas de um paciente, artigos comprados por um cliente, entre outros). O objeto desta t�cnica � representar, com determinado grau de confian�a, uma rela��o existente entre o antecedente e o consequente de uma regra de associa��o, ou seja, a regra cont�m no antecedente um subconjunto de atributos e seus valores e no consequente um subconjunto de atributos que decorrem do antecedente.

Um exemplo: em um supermercado, uma regra de associa��o pode ser do tipo �50% dos clientes que compram p�o tamb�m compram leite�.

Produto=P�o 100 ==> produto=leite 50 conf:(0.50)

Este s�mbolo ==> faz a divis�o entre o antecedente e o consequente. O n�mero que aparece antes do s�mbolo ==> indica o suporte da regra. O n�mero que aparece no final da regra indica quantas vezes o consequente aparece para cada ocorr�ncia do antecedente. E o n�mero final, entre par�nteses, � o valor da confian�a, ou seja, em 100 compras em que o leite aparece, em 50 o p�o � levado junto, ent�o 50/100=0,5, representando 50% de confian�a.

Descobrir regras de associa��o entre produtos comprados em uma mesma compra pode ser �til para induzir a comprar mais, melhorar a organiza��o das prateleiras, facilitar (ou dificultar) as compras do usu�rio.

Algoritmo Apriori

Algoritmos de associa��o podem ser utilizados como suporte � tomada de decis�o. Esses algoritmos n�o pretendem apenas satisfazer um �nico objetivo espec�fico. Atrav�s de uma fonte de dados, um gestor pode analisar o que caracteriza um bom cliente, determinar os produtos que certo tipo de cliente pode comprar, identificar produtos que influenciam a venda de outros produto ou, apenas, caracterizar os seus grupos de clientes.

O algoritmo Apriori � um dos algoritmos mais usados para buscas em regras de associa��o.

Defini��es necess�rias:

K-itemsets s�o conjuntos com k itens que podem aparecer na base de dados;
Suporte m�nimo � o valor m�nimo do suporte para que um k-itemset seja considerado;
Confian�a m�nima � um limite para filtragem das associa��es descobertas pelo algoritmo.

Para entender o algoritmo, imagine uma situa��o em que um gerente de um supermercado est� interessado em conhecer os h�bitos de compra de seus clientes. Por exemplo, quais os produtos que os clientes costumam comprar ao mesmo tempo, a cada vez que v�m ao supermercado. Com isso, ele poder� planejar melhor os cat�logos do supermercado, os folhetos de promo��es de produtos, as campanhas de publicidade, al�m de organizar melhor a localiza��o dos produtos nas prateleiras do supermercado colocando pr�ximos os itens frequentemente comprados juntos al�m de encorajar os clientes a comprar tais produtos conjuntamente. Esse gerente disp�e de uma mina de dados, que � o banco de dados de transa��es efetuadas pelos clientes. A cada compra de um cliente, s�o registrados neste banco todos os itens comprados. Para facilitar a representa��o dos produtos na tabela, vamos associar um n�mero a cada produto do supermercado, como a da Tabela 1.

**Tabela 1**. Representa��o num�rica de cada produto do supermercado.

Cada conjunto de itens comprados pelo cliente numa �nica transa��o � chamado de Itemset. Um itemset com k elementos � chamado de k-itemset. Suponha que o gerente decide que um itemset que aparece em pelo menos 50% de todas as compras registradas ser� considerado frequente. Por exemplo, se o banco de dados que ele disp�e � o ilustrado na Tabela 2, ent�o o itemset {1,3} � considerado frequente, pois aparece em mais de 60% das transa��es. Suporte de um itemset � definido como sendo a porcentagem de transa��es onde este itemset aparece.

**Tabela 2.** Exemplo de um banco de dados de transa��es de clientes.

A Tabela 3 contabiliza os suportes de diversos itemsets com rela��o ao banco de dados de transa��es da Tabela 2.

**Tabela 3.** Suporte de alguns itemsets.

O que identifica uma transa��o n�o � o identificador do cliente, mas sim o indicador da transa��o Cod_Vendas. O ItemSet {1,3} aparece em quatro transa��es no exemplo do banco de dados da Tabela 2, esse banco possui no total seis registros de vendas, ent�o calculamos o valor do suporte em 4/6 = 0,6666.

Se a exig�ncia m�nima do gerente para um itemset ser considerado frequente seja 50%, ent�o os itemsets da Tabela 3 que ser�o considerados frequentes s�o: {1, 3}, {2, 9}.

Uma regra de associa��o � uma express�o da forma A -> B, onde A e B s�o itemsets. Por exemplo, {p�o, leite} -> {caf�} � uma regra de associa��o. Essa regra tem como ideia, que pessoas que compram p�o e leite tendem a comprar caf� tamb�m, isto �, se algu�m compra p�o e leite ent�o tamb�m compra caf�. Repare que esta regra � diferente da regra {caf�}->{p�o,leite}.

A toda regra de associa��o A -> B associamos um grau de confian�a, denotado por conf(A -> B). Este grau de confian�a � a porcentagem das transa��es que suportam B dentre todas as transa��es que suportam A, isto �: conf(A -> B) = n�mero de transa��es que suportam (A U B) n�mero de transa��es que suportam A.

Ferramentas de Data Mining

Para escolher uma ferramenta de descoberta de conhecimento, deve-se observar as seguintes caracter�sticas:

Facilidade de acesso em diferentes fontes de dados;
A possibilidade de incluir modelos de dados orientados a objetos ou modelos n�o padronizados;
O poder de processamento relacionado ao n�mero m�ximo de tabelas/tuplas/atributos;
A capacidade de processamento relacionado ao tamanho do banco de dados;
Os diferentes tipos de atributos que a ferramenta pode manipular; e
Tipo de linguagem de consulta.

Com base nas caracter�sticas citadas acima, algumas ferramentas foram pesquisadas, tais como Clementine, Enterprise Miner e Weka. A ferramenta Weka, que ser� apresentada a seguir, possui interface gr�fica amig�vel, possibilita a utiliza��o de recursos via API�s, � distribu�da gratuitamente (caracter�stica que as outras ferramentas citadas n�o possuem), e � muito citada por diversos autores como uma excelente ferramenta de suporte � minera��o de dados.

Weka (Waikato Environment for Knowledge Analysis)

Desenvolvido por um grupo de pesquisadores na universidade de Waikato (Nova Zel�ndia), em 1993, este software herdou seu nome da ave WEKA (Gallirallus australis). Inicialmente, os pesquisadores desenvolveram um software que visava a investiga��o de t�cnicas de aprendizagem de m�quina. Sua aplica��o inicial direcionou-se para agricultura, �rea base na economia da Nova Zel�ndia. Posteriormente, a ferramenta Weka permitiu que fossem implementados algoritmos de minera��o de dados na linguagem C e TCL/TK. Em 1997, o c�digo foi reescrito na linguagem JAVA e foram adicionados alguns algoritmos de modelagem de dados. Este software tamb�m � desenvolvido sob licen�a GNU (General Public Licence) e � facilmente usado por iniciantes pela sua interface gr�fica. Grande parte dos seus recursos pode ser acess�vel pela sua GUI para intera��o com os arquivos de dados e capaz de produzir resultados visuais no formato de tabelas e curvas, e atrav�s de API`s os demais recursos podem ser utilizados na programa��o.

Tem como principal caracter�stica ser port�vel; dessa forma, pode ser executado nas mais variadas plataformas e aproveitando os benef�cios de uma linguagem orientada a objetos. Al�m disso, � de dom�nio p�blico dispon�vel para download em Weka 3: Machine Learning Software in Java.

Tipo de Arquivo

A ferramenta Weka tem como formato nativo o tipo ARFF (arquivo de atributo-rela��o), que consiste em duas partes. Na primeira est�o os atributos nos quais devem ser definidos os tipos ou valores que eles podem representar, estes valores devem ser separados por v�rgulas e entre �{}�. Na segunda parte encontramos os registros a serem minerados com os valores dos atributos, para cada inst�ncia, separados por v�rgulas. Caso ocorra aus�ncia de um registro, deve-se atribuir em seu lugar o s�mbolo �?�.

Com isso, a ferramenta Weka permite o uso de planilhas eletr�nicas e banco de dados, os quais permitem exportar os dados em um arquivo onde as v�rgulas s�o os separadores. � necess�rio apenas carregar o arquivo em um editor de texto e adicionar o nome do conjunto de dados usando @relation+nome do conjunto de dados, para cada atributo usa @attribute, e ap�s colocar uma linha com @data e logo em seguida os dados em si, salva-se ent�o o arquivo com extens�o arff.

O arquivo ARRF � o padr�o Weka, por�m, o software interpreta tamb�m outros formatos de arquivos como CSV, C4.5 E C4.5 codificado, Database, JSON, LibSVM, Matlab, SVMlight, XRFF.

A ferramenta WEKA � formada por um conjunto de implementa��es de algoritmos de diversas t�cnicas de minera��o de dados, tais como: Apriori, FPGrowth, PredictiveApriori, Tertius (m�todos de associa��o); EM, Cobweb, SimpleKMeans, DBScan, CLOPE (m�todos de agrupamento); Regress�o linear, Geradores de �rvores modelo, Regress�o local de pesos, Aprendizado baseado em inst�ncia, Tabela de decis�o, Perceptron multicamadas (M�todos para predi��o num�rica); �rvore de decis�o induzida, Regras de aprendizagem, Naive Bayes, Tabelas de decis�o, Regress�o local de pesos, Aprendizado baseado em inst�ncia, Regress�o l�gica, Perceptron, Comit� de perceotrons, SVM (m�todos de classifica��o).

Ferramentas de apoio ao processo de descoberta de conhecimento

Data Warehouse

Data Warehouse (DW) ou armaz�m de dados � um sistema de computa��o utilizado para organizar, limpar e estruturar as atividades de uma organiza��o, sendo �teis para revelar informa��es estrat�gicas que podem facilitar a tomada de decis�o. O termo � definido como um dep�sito de dados orientado por assunto, integrado, n�o vol�til, vari�vel com o tempo, para apoiar as decis�es da ger�ncia:

Orientado por assuntos: os dados est�o organizados com foco nos assuntos mais importantes de uma organiza��o. Vendas, Finan�as, Empr�stimos, Poupan�a s�o exemplos de assuntos de um DW;
Integrado: os dados podem ser carregados de diversas fontes de dados (planilhas, arquivos texto, bancos de dados), com esta integra��o, o DW adquire uma caracter�stica muito corporativa;
N�o vol�til: uma vez inseridos, os dados n�o podem ser alterados, embora possam ser exclu�dos;
Vari�vel com o tempo: os dados recebem uma chave de tempo que determina que os dados n�o sejam atualiz�veis e que eles possam ser comparados ao longo do tempo, possibilitando que os analistas de neg�cios fa�am an�lises de tend�ncias e visualizem as informa��es ao longo do tempo. Cada ocorr�ncia e cada mudan�a s�o consideradas como um novo registro, pois a informa��o hist�rica n�o � perdida.

O conceito de armaz�m de dados surgiu com a necessidade de integrar dados provenientes de diversas origens sem causar impacto sobre as bases operacionais acessadas diariamente dentro da empresa como, por exemplo, sistemas administrativos, controle de estoque, sistemas de expedi��o, entre outros, e tamb�m de gerenciar um grande volume de dados.

O Data Warehouse apoia o processo KDD, nele os dados s�o tratados de maneira que todos tenham os mesmos formatos, conven��es, entre outras caracter�sticas. Por exemplo: o sexo pode ser descrito de v�rias maneiras, como "fem", "f", "masc", "m", tais dados s�o convertidos para "feminino" e "masculino", mantendo uma base de dados limpa, com dados consistentes.

Data Mart

Um data mart � um data warehouse de menor capacidade e complexidade usado para atender a uma unidade espec�fica de neg�cios. Portanto, s�o tipicamente mais f�ceis de construir e manter. Por ser menor, possibilita a an�lise multidimensional, com os cruzamentos de dados e vis�es previamente calculadas, com o objetivo de aumentar a velocidade na consulta das informa��es.

Os data marts s�o subconjuntos de um data warehouse, basicamente deve-se extrair, transformar e integrar os dados pertinentes. Representa dados de um �nico processo de neg�cio.

Modelo estrutural

O modelo estrutural � a forma como o data warehouse ou o data mart � constru�do. Os modelos mais utilizados para a modelagem de um ambiente multidimensional s�o:

Estrela;
Join Star;
Floco de Neve.

Os tr�s modelos utilizam uma arquitetura composta de uma tabela fato e um conjunto de outras tabelas chamadas dimens�es. O modelo Floco de Neve possui �subtabelas� dimensionais representando uma agrega��o maior dos dados que s�o referenciados unicamente pelas tabelas dimens�o.

O modelo Join Star possui diversas tabelas fatos ligadas �s tabelas dimensionais, sendo que uma tabela dimens�o pode ser referenciada por mais de uma tabela fato.

J� o modelo Estrela, que � o mais utilizado, possui uma �nica tabela fato ligada �s v�rias tabelas dimensionais.

Data Transformation Services (DTS)

O DTS (Data Transformation Services) � uma ferramenta que apoia a transfer�ncia e o tratamento dos dados entre a base operacional, e o data mart. Auxilia no processo de importa��o, transforma��o e carregamento dos dados, denominado ETL (Extraction, Transformation and Load), facilitando ent�o o processo de extra��o de conhecimento. As fontes de dados que podem fazer parte do data mart s�o selecionadas atrav�s desta ferramenta. Estes dados s�o limpos, transformados e exportados para o reposit�rio. � poss�vel tamb�m selecionar as colunas que podem atravessar o processo de minera��o.

Conclus�o

As t�cnicas de minera��o de dados est�o sendo cada vez mais aplicadas e n�o h� limite ou �rea espec�fica. Tem como finalidade a melhoria ou resolu��o dos problemas e tomadas de decis�es. Alguns exemplos de �reas de aplica��o: marketing, vendas, educa��o, finan�as, manufatura, sa�de, energia, telefonia, franquia de fast-food, aplica��es para o poder judici�rio, entre outras.

A seguir alguns exemplos de aplica��es pr�ticas do uso do data mining:

Telefonia: � realizada a classifica��o de clientes de uma grande empresa do ramo de telecomunica��es, de acordo com seu potencial de compra de servi�os. Para tanto, o banco de dados foi enriquecido com os question�rios preenchidos pelos clientes, foi realizado o processo de clusteriza��o e, logo ap�s, as classes de clientes foram definidas. A partir desta defini��o, um classificador foi gerado e aplicado � base de dados completa caracterizando o potencial de compra dos clientes, a��es de marketing espec�ficas por clientes que puderam ser realizadas;
Franquia de Fast-Food: utilizou uma base de dados que continha informa��es das transa��es de vendas de itens realizadas durante um determinado per�odo de capta��o de dados. Esse per�odo de capta��o foi localizado, e definido de forma a refletir o comportamento comercial da loja em dias normais de venda;
Assist�ncia M�dica: para reavaliar os custos relativos a empregados e dependentes de sua carteira de assist�ncia m�dica, foi constru�do um avan�ado sistema de data mining. O alvo de modelagem foram os centros de custos, divididos por �reas propensas � duplica��o no ano seguinte;
Poder Judici�rio: algumas aplica��es data mining foram modeladas para avaliar um processo judici�rio que envolvia a pena de morte. Correlacionando dados como opini�es pessoais e votos dados pela Suprema Corte de Justi�a americana em refer�ncia com um caso espec�fico que esteve em julgamento. O relat�rio final indicava que a escolha pela penalidade de morte estava sempre relacionada com a filia��o do membro j�ri ao bloco conservador da Corte de Justi�a; os votos geralmente eram ligados � ra�a do acusado;
�rea Financeira: gerou um classificador para caracterizar clientes de acordo com seu perfil de inadimpl�ncia (pagam em dia, atrasam pagamento, n�o pagam). No projeto, considerou-se o hist�rico de pagamento de clientes de uma financeira que haviam recebido cr�ditos durante algum definido per�odo. O classificador gerado foi incorporado a um sistema de apoio de decis�o na an�lise de novas solicita��es de cr�dito recebidas na central de atendimento da financeira referida;
Educa��o: as escolas do estado do Rio de Janeiro responderam a question�rios contendo mais de 600 perguntas referentes � sua gest�o durante o ano de 2001. Para fonte de outro projeto de KDD foram utilizadas grandes bases de dados com as respostas desse question�rio. O objetivo foi buscar caracterizar perfis de escolas, de forma a descobrir, dentre v�rias quest�es, porque v�rias escolas t�m alto �ndice de evas�o, porque determinadas escolas tem maior �ndice de procura, e assim por diante.

Como se pode observar, existem diferentes �reas em que podemos obter os benef�cios do uso de t�cnicas de minera��o de dados. No pr�ximo artigo desta s�rie daremos continuidade a esta discuss�o com a aplica��o pr�tica de t�cnicas de minera��o para a �rea de dados educacionais.

Minera��o de Dados usando KDD: Parte 2

Confira outros conte�dos:

Por Fernanda Em 2013

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Willamys Sousa

Parab�ns!! Muito bom o artigo ;)

há +1 ano

Fernanda Madeira

Obrigada Willamys.

Fico feliz que tenha gostado do artigo.

Na edi��o 116 tem a continua��o deste artigo.

há +1 ano

M�todo para iniciantes

sem base nenhuma

Mentorias individuais

quando voc� travar

+40 projetos reais

para o seu portf�lio

+5000 exerc�cios

para fixar o conte�do

Suporte IA

que te ensina

No code e automa��es

pra entregar mais r�pido

Veja os resultado dos nossos alunos

Conquistas reais de quem est� aplicando o m�todo

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Minera��o de Dados Educacionais usando KDD � Parte 1

Nesta primeira parte do artigo conheceremos algumas defini��es introdut�rias na �rea de minera��o de dados. Uma das etapas principais dentro do Processo de Descoberta de Conhecimento � a aplica��o da t�cnica de minera��o de dados.

Dados, Informa��o e Conhecimento

O Processo de Descoberta de Conhecimento em Bases de Dados (KDD)

O processo KDD e suas etapas:

Pr�-processamento

Data Mining (Minera��o de Dados)

P�s-Processamento

Data Mining

T�cnicas de Data Mining

Algoritmo Apriori

Ferramentas de Data Mining

Weka (Waikato Environment for Knowledge Analysis)

Tipo de Arquivo

Ferramentas de apoio ao processo de descoberta de conhecimento

Data Warehouse

Data Mart

Modelo estrutural

Data Transformation Services (DTS)

Conclus�o

Confira outros conte�dos:

<Perguntas frequentes>

Por onde devo iniciar os estudos?

Em quanto tempo vou me tornar um programador?

Eu preciso de um diploma de faculdade para come�ar a atuar como programador?

Por que a programa��o se tornou a profiss�o mais promissora da atualidade?

Quais s�o os principais diferenciais da DevMedia?

O que eu irei aprender estudando pela DevMedia?

Quais as vantagens de aprender programa��o atrav�s da linguagem JavaScript?

A plataforma oferece certificados?

A plataforma tem suporte ao aluno, como funciona?

A DevMedia me forma como programador Full Stack?

Tem hor�rio para as aulas?

Por que a DevMedia n�o usa videoaulas em sua did�tica?

Preciso de um computador espec�fico para estudar na DevMedia?

Eu consigo estudar pelo celular?

A DevMedia tem aplicativo?

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

Quais s�o os planos de assinatura dispon�veis?

Adquirindo o plano, terei acesso a todo o conte�do?

A plataforma tem planos vital�cios?

A DevMedia tem fidelidade?

Como funciona o cancelamento?

Como excluir meus dados da plataforma?