T�cnicas para fazer previs�es

T�cnicas para fazer previs�es

Ol�, leitores! Feliz 2008 para todos. Muita sa�de, paz, alegria, bons neg�cios, projetos novos e estimulantes e n�o aquela ladainha de sempre de corrigir os erros dos outros e por ai vai.

Aproveitando o embalo do meu coment�rio da coluna passada sobre os exclu�dos de Hogwarts, resolvi falar de como fazer uma previs�o eficaz e com boa confiabilidade, coisa para Sibila Trelawney nenhuma botar defeito.

Mas, falando de t�cnicas, um dos algoritmos da moda � o SVM (Support Vector Machines), embora nem todos estejam familiarizados ou saibam exatamente como ele funciona.

Vamos l�...

O SVM � um m�todo de aprendizado de m�quina supervisionado, utilizado para realizarmos c�lculos que envolvem regress�o e classifica��o de dados. Seu conceito est� baseado na teoria do aprendizado estat�stico, tamb�m chamado de teoria VC (Vapnik-Chervonenkis). Atualmente � considerada a melhor teoria para estima��o de par�metros de amostras finitas, estudo de depend�ncia funcional e de aprendizado preditivo.

A teoria de VC abrange quatro partes importantes na sua implementa��o:

Teoria da Consist�ncia dos processos de aprendizagem;

Teoria da Taxa de converg�ncia dos processos de aprendizagem;

Teoria da Minimiza��o do Risco Estrutural;

Teoria da Otimiza��o.

Modelos SVM t�m a mesma forma funcional de uma rede neural, uma t�cnica popular de Data Mining. No entanto, a rede neural n�o tem um fundamento te�rico t�o bem formalizado quanto o fundamento do SVM. A flexibilidade, escalabilidade e velocidade do SVM s�o melhores do que de outros m�todos tradicionais.

Em diversos casos, o SVM mostrou um bom desempenho utilizando um conjunto de dados que possuem diversos atributos, ainda que com uma amostra reduzida. N�o existe um limite para o n�mero de atributos que se pode usar no algoritmo e as �nicas restri��es que podemos encontrar s�o as de hardware.

O objetivo final no SVM � encontrar condi��es matem�ticas para escolha de uma fun��o que separe os dados a serem aprendidos em problemas de categoriza��o. Esta separa��o deve considerar o menor erro de treinamento, ao mesmo tempo em que deve maximizar a capacidade de generaliza��o de um classificador, para o processo de aprendizagem supervisionada.

Vejamos: a abordagem tradicional para separar os dados � usar uma fun��o, como um polin�mio, e ent�o ajustar seus par�metros para separar os dados de treinamento, agrupando-os em uma das classes.

Durante a fase de treinamento, se aumentado o grau do polin�mio � poss�vel reduzir o erro nos dados, o que levaria a um melhor aprendizado; No entanto, esta estrat�gia pode levar ao overfitting, resultando em uma capacidade reduzida de generaliza��o nos dados futuros. Uma alternativa nos modelos tradicionais � a redu��o significativa do grau do polin�mio, por�m isto pode gerar um erro nos dados de treinamento, chamado underfitting.

O risco emp�rico pode ser reduzido � zero ao custo de uma fun��o de decis�o extremamente complexa. A distribui��o dos dados de treinamento pode n�o ser complexa de ser classificada, por�m, caracter�sticas como �ru�dos� podem fazer com que o processo de aprendizado seja muito mais complexa que a realidade.

Na teoria de aprendizado estat�stico existem condi��es matem�ticas para a escolha de um classificador com desempenho desejado para dados de treinamento, minimizando o erro estrutural do processo, ou seja, evitando um overfitting ou um underfitting. A teoria da Minimiza��o do Risco Estrutural formaliza o conceito de controle de complexidade e minimiza��o do risco emp�rico.

Desta forma, se o objetivo � minimizar o erro da classifica��o, a m�quina deve conseguir minimizar tanto o risco emp�rico quanto o termo de complexidade, o que nos permite chegar ao well-trained. Ou seja, o modelo ajustado para o conjunto de dados que ser� analisado.

Neste site voc�s podem encontrar um simulador de uma SVM para visualizarem como funciona a cria��o das classes: http://www.patternrecognition.co.za/svmapplet.html

Bom, pessoal, quaisquer d�vidas estou � disposi��o.

Um forte abra�o a todos!

Vander Emiro Muniz

vmuniz@triscal.com.br

www.triscal.com.br