Data Mining na Pr�tica: Algoritmo K-Means

Ol� pessoal, nesta coluna vamos continuar nosso estudo sobre algoritmos de Data Mining. Veremos como utilizar um algoritmo cl�ssico de classifica��o (clustering) para segmenta��o de dados de acordo com categorias. Uma vers�o simples do algoritmo ser� implementada em uma stored procedure do SQL Server 2000, de maneira semelhante � a regress�o linear implementada na coluna anterior.

O algoritmo

A ideia do algoritmo K-Means (tamb�m chamado de K-M�dias) � fornecer uma classifica��o de informa��es de acordo com os pr�prios dados. Esta classifica��o, como ser� vista a seguir, � baseada em an�lise e compara��es entre os valores num�ricos dos dados. Desta maneira, o algoritmo automaticamente vai fornecer uma classifica��o autom�tica sem a necessidade de nenhuma supervis�o humana, ou seja, sem nenhuma pr�-classifica��o existente. Por causa desta caracter�stica, o K-Means � considerado como um algoritmo de minera��o de dados n�o supervisionado.

Para entender como o algoritmo funciona, vamos imaginar que temos uma tabela com linhas e colunas que cont�m os dados a serem classificados. Nesta tabela, cada coluna � chamada de dimens�o e cada linha cont�m informa��es para cada dimens�o, que tamb�m s�o chamadas de ocorr�ncias ou pontos. Geralmente, trabalha-se com dados cont�nuos neste algoritmo, mas nada impede que dados discretos sejam utilizados, deste que eles sejam mapeados para valores num�ricos correspondentes.

Como foi dito, o algoritmo vai analisar todos os dados desta tabela e criar classifica��es. Isto �, o algoritmo vai indicar uma classe (cluster) e vai dizer quais linhas pertencem a esta classe. O usu�rio deve fornecer ao algoritmo a quantidade de classes que ele deseja. Este n�mero de classes que deve ser passada para o algoritmo � chamado de k e � da� que vem a primeira letra do algoritmo: K-Means.

Para gerar as classes e classificar as ocorr�ncias, o algoritmo faz uma compara��o entre cada valor de cada linha por meio da dist�ncia. Geralmente utiliza-se a dist�ncia euclidiana para calcular o qu�o �longe� uma ocorr�ncia est� da outra. A maneira de calcular esta dist�ncia vai depender da quantidade de atributos da tabela fornecida. Ap�s o c�lculo das dist�ncias o algoritmo calcula centroides para cada uma das classes. Conforme o algoritmo vai iterando, o valor de cada centroide � refinado pela m�dia dos valores de cada atributo de cada ocorr�ncia que pertence a este centroide. Com isso, o algoritmo gera k centroides e coloca as ocorr�ncias da tabela de acordo com sua dist�ncia dos centroides.

Para simplificar a explica��o de como o algoritmo funciona vou apresentar o algoritmo K-Means em cinco passos:

PASSO 01: Fornecer valores para os centroides: Neste passo os k centroides devem receber valores iniciais. No in�cio do algoritmo geralmente escolhe-se os k primeiros pontos da tabela. Tamb�m � importante colocar todos os pontos em um centroide qualquer para que o algoritmo possa iniciar seu processamento.
PASSO 02: Gerar uma matriz de dist�ncia entre cada ponto e os centroides: Neste passo, a dist�ncia entre cada ponto e os centroides � calculada. A parte mais �pesada� de c�lculos ocorre neste passo pois se temos N pontos e k centroides teremos que calcular N x k dist�ncias neste passo.
PASSO 03: Colocar cada ponto nas classes de acordo com a sua dist�ncia do centroide da classe: aqui, os pontos s�o classificados de acordo com sua dist�ncia dos centroides de cada classe. A classifica��o funciona assim: o centroide que est� mais perto deste ponto vai �incorpor�-lo�, ou seja, o ponto vai pertencer � classe representada pelo centroide que est� mais perto do ponto. � importante dizer que o algoritmo termina se nenhum ponto �mudar� de classe, ou seja, se nenhum ponto for �incorporado� a uma classe diferente da que ele estava antes deste passo.
PASSO 04: Calcular os novos centroides para cada classe: neste momento, os valores das coordenadas dos centroides s�o refinados. Para cada classe que possui mais de um ponto o novo valor dos centroides � calculado fazendo-se a m�dia de cada atributo de todos os pontos que pertencem a esta classe.
PASSO 05: Repetir at� a converg�ncia: o algoritmo volta para o PASSO 02 repetindo iterativamente o refinamento do c�lculo das coordenadas dos centroides. Notem que desta maneira teremos uma classifica��o que coloca cada ponto em apenas uma classe. Desta maneira dizemos que este algoritmo faz uma classifica��o hard (hard clustering) uma vez que cada ponto s� pode ser classificado em uma classe. Outros algoritmos trabalham com o conceito de classifica��o soft onde existe uma m�trica que diz o qu�o �dentro� de cada classe o ponto est�.

Vamos ver agora um exemplo pr�tico da utiliza��o do algoritmo K-Means.

Exemplo de uso de algoritmo

Neste exemplo vamos considerar que uma determinada empresa vende produtos para clientes por meio de pedidos compostos por itens de pedidos. Para facilitar o entendimento do cen�rio e do modelo de dados vamos utilizar a base de dados de exemplo Northwind do SQL Server 2000. O diagrama de entidades com as tabelas que nos interessa � apresentado na Figura 1.

**Figura 1**. Diagrama com as principais tabelas da base de dados NorthWind

A tabela que cont�m os itens de pedidos se chama Order Details e possui uma chave prim�ria composta nas colunas OrderID e ProductID. Existem duas chaves estrangeiras na tabela Order Details, sendo que a primeira chave estrangeira relaciona a coluna ProductID da tabela de produtos chamada Products com a coluna ProductID da tabela Order Details. A segunda chave estrangeira relaciona a coluna OrderId da tabela de pedidos chamada Orders com a coluna OrderId da tabela Order Details. O modelo ainda apresenta a tabela de clientes Customers relacionado � tabela de pedidos Orders por meio das colunas CustomerID presente em ambas as tabelas.

Com base neste modelo, o departamento de marketing da empresa deseja segmentar os clientes para poder oferecer descontos diferenciados e outros benef�cios. A segmenta��o dos clientes deve dividir todos os clientes da base de dados em tr�s categorias: Clientes Ouro, Clientes Prata e Clientes Bronze. O crit�rio de classifica��o dos clientes deve levar em considera��o apenas duas vari�veis: o total de pedidos de cada cliente e a quantidade total gasta pelo cliente em todos os pedidos, sem considerar descontos. Obviamente os clientes que possu�rem mais pedidos e o maior valor gasto ser�o classificados como Clientes Ouro.

Com base nestas informa��es, inicialmente vamos calcular o total de pedidos para cada cliente e a quantidade gasta pelo cliente em todos os pedidos por meio da consulta apresentada na Listagem 1. O resultado desta consulta foi armazenado em uma tabela chamada PERFIL.

**Listagem 1**. Obtendo o perfil de cada cliente

Com os dados armazenados na tabela PERFIL um gr�fico de pontos foi gerado no Excel com a Quantidade de Pedidos x o Total Gasto. A Figura 2 apresenta este gr�fico gerado a partir dos dados da tabela PERFIL.

**Figura 2**. Gr�fico de pontos mostrando a Quantidade de Pedidos x Total Gasto por cliente

Para classificar os dados da tabela PERFIL de acordo com o que o departamento de marketing deseja podemos utilizar o algoritmo K-Means. Como especificado somente dois atributos, Quantidade de Pedidos e Total Gasto, ser�o utilizados para classificar os clientes. Na vida real o algoritmo K-Means pode trabalhar com qualquer quantidade de atributos para classificar os valores.

Analisando os dados da Figura 2 podemos ver claramente que tr�s clientes ser�o classificados como Clientes Ouro, pois fica f�cil de ver a dist�ncia entre estes clientes e os demais. Por�m n�o fica f�cil a classifica��o dos demais clientes em Clientes Prata e Clientes Bronze.

Para ajudar a classificar estes clientes vamos utilizar uma implementa��o do algoritmo K-Means que vai trabalhar com apenas dois atributos. Esta implementa��o foi colocada na stored procedure ST_KMEANS baseada em instru��es SQL do dialeto T-SQL, linguagem padr�o do SQL Server. Com algumas poucas mudan�as a stored procedure pode ser implementada em outros bancos de dados e tamb�m poder� receber mais de dois atributos para a classifica��o.

Para tornar mais modular o algoritmo, a implementa��o do c�lculo da dist�ncia entre os pontos foi feita na fun��o DIST(), que deve ser criada antes da stored procedure. A Listagem 2 apresenta a chamada da stored procedure ST_KMEANS para o exemplo da tabela PERFIL. O primeiro par�metro que deve ser passado para a procedure � o nome da tabela, seguido pelos par�metros dos atributos. O quarto par�metro indica qual � a quantidade de classifica��es que o algoritmo deve utilizar (clusters). A Listagem 2 apresenta os 23 primeiros pontos classificados de acordo com o algoritmo K-Means, colocando-os os em ordem de acordo com a classe a que pertencem.

**Listagem 2**. Chamada � stored procedure ST_KMEANS

No resultado apresentado pela stored procedure a coluna X equivale ao valor da primeira coluna passada como par�metro, que no nosso exemplo � QTD_PEDIDOS, e a coluna Y equivale ao valor da segunda coluna passada como par�metro, que no nosso exemplo � QTD_GASTA.

A Stored Procedure ainda possui um quinto par�metro. Se este par�metro n�o for passado a stored procedure retorna os dados classificados como na Listagem 2. Se o quinto par�metro for passado como 1, a stored procedure retorna as coordenadas dos centroides de cada classe. A Listagem 3 apresenta a chamada � stored procedure com o uso do quinto par�metro e o seu resultado.

**Listagem 3**. Execu��o da stored procedure ST_KMEANS com cinco par�metros

Notem que os pontos que definem os centroides de cada classe n�o existem no conjunto de pontos iniciais.

No nosso exemplo, o algoritmo classificou os dados em tr�s classes: classe 1, 2 e 3. De acordo com a defini��o do tipo de cliente a classe 1 equivale ao Cliente Bronze, a classe 2 equivale a Cliente Prata e a classe 3 equivale ao Cliente Ouro. Colocando estes dados em um gr�fico de pontos podemos visualizar mais facilmente a classifica��o dos clientes. Este gr�fico � apresentado na Figura 3.

**Figura 3**. Classifica��o dos clientes de acordo com o algoritmo KMeans

No gr�fico da Figura 3 os clientes representados pela cor amarelo escuro (tri�ngulo) s�o aos Clientes Ouro, os clientes de cor cinza (quadrado) s�o os Clientes Prata e os clientes de cor amarelo claro (losango) s�o os Clientes Bronze. Os tr�s pontos em preto indicam os centroides calculados pelo algoritmo

Com a utiliza��o do algoritmo pode-se classificar os clientes existentes de acordo com sua Quantidade de Pedidos e Total Gasto em todos os pedidos, da maneira que o departamento de marketing desejou. Para classificar de um novo cliente basta executar novamente a stored procedure e verificar qual � a sua classifica��o. Desta maneira, todos os clientes ser�o novamente analisados e re-classificados.

Como alternativa pode-se comparar os dados de um novo cliente aos dados dos centroides antes de incluir o cliente na tabela. Esta compara��o � feita por meio da dist�ncia entre os valores do novo cliente e os valores dos centroides fornecidos pelo algoritmo quando este recebe o valor 1 para o quinto par�metro.

Confira outros conte�dos:

Por Imaster1 Em 2007

Data Mining na Pr�tica: Algoritmo K-Means

Veja neste artigo como utilizar um algoritmo cl�ssico de classifica��o (clustering) para segmenta��o de dados de acordo com categorias.

O algoritmo

Exemplo de uso de algoritmo

Confira outros conte�dos: