Data Mining na Prática: Time Series

Neste artigo vamos continuar nosso estudo sobre algoritmos de Data Mining. Desta vez abordaremos o algoritmo que trabalha com a predi��o de valores em uma s�rie temporal, o algoritmo de Time Series. Para a implementa��o do exemplo utilizarei o Analisys Services 2005, pois o algoritmo de Data Mining para s�ries temporais � uma das novas funcionalidades.

Antes de come�ar a verificar os detalhes do algoritmo, vamos entender como os dados est�o organizados em uma s�rie temporal. Geralmente os dados de uma s�rie temporal s�o indexados por um per�odo de tempo com intervalos fixos como, por exemplo, dados armazenados mensalmente ou diariamente. Em s�ries de dados temporais � comum encontrar valores que variam no tempo, sendo que a principal caracter�stica dos dados de uma s�rie temporal na regularidade dos per�odos.

Os dados de uma s�rie temporal podem conter mais de um conjunto de dados. Por exemplo, uma �nica s�rie temporal pode conter a quantidade de estoque de um produto e a quantidade vendida deste mesmo produto. Os algoritmos que trabalham com a predi��o de valores de s�ries temporais geralmente trabalham com apenas um conjunto de dados por vez. J� o algoritmo de s�ries temporais do Analisys Services 2005 permite que se trabalhe com mais de um conjunto de dados, de modo que a identifica��o de correla��es entre estes conjuntos para ajudar na predi��o. Este tipo de correla��o entre conjuntos de dados de uma s�rie temporal � chamado de cross prediction.

Outro conceito importante sobre s�ries temporais � a sazonalidade. Este conceito pode ser definido da seguinte maneira: os dados de uma s�rie temporal apresentam padr�es de comportamento que se repetem durante os per�odos da s�rie. Um exemplo de sazonalidade pode ser o aumento de temperatura nos meses de ver�o em uma s�rie temporal que armazena a temperatura m�s a m�s. O aumento de temperatura, neste caso, provavelmente vai se repetir em todos os meses de ver�o, independente do ano, demonstrando a sazonalidade do aumento da temperatura.

Os algoritmos de Data Mining para s�ries temporais s�o utilizados para prever novos dados a partir dos dados hist�ricos da s�rie. Ou seja, o algoritmo vai analisar a quantidade de dados existentes e fornecer uma poss�vel previs�o do que pode acontecer nos pr�ximos per�odos.

Esta previs�o leva em considera��o os dados �passados� da s�rie temporal, que se tornam seu conjunto de treinamento. A previs�o fornecida pelos algoritmos de Data Mining para series temporais � baseada em regress�es n�o-lineares. Cabe a usu�rio apenas fornecer a s�rie temporal e especificar quais os per�odos o algoritmo deve prever.

Um ponto importante a ser considerado � a qualidade da predi��o. Podemos utilizar este algoritmo para prever o valor da cota��o de uma determinada empresa e ficarmos ricos? Infelizmente a resposta � n�o.

A qualidade da predi��o � um assunto delicado quando se fala em algoritmos para s�ries temporais. � importante lembrar que a previs�o � apenas UMA possibilidade e que geralmente os algoritmos de s�ries temporais tendem a apresentar previs�es razo�veis, previs�es estas que levam em considera��o diversos fatores como, por exemplo, a correla��o com outras s�ries e a sazonalidade. Estes algoritmos trabalham com modelos para representar os dados e, em algumas situa��es, � mais recomendado elaborar um modelo espec�fico para a s�rie temporal do que utilizar um algoritmo de Data Mining. No exemplo da cota��o faz mais sentido procurar um modelo espec�fico para sistemas ca�ticos do que utilizar um algoritmo de Data Mining para s�ries temporais.

Apresentadas estas caracter�sticas, podemos come�ar a estudar o uso do algoritmo de s�ries temporais implementado no Analisys Services 2005. Este algoritmo � muito complexo e utiliza outro algoritmo de Data Mining, o algoritmo de �rvores de decis�o. Sem entrar em maiores detalhes do seu funcionamento, um exemplo simples ser� apresentado para demonstrar como este algoritmo pode ser empregado. Para os leitores que desejarem maiores informa��es, recomendo uma boa lida no artigo que explica os detalhes do funcionamento do algoritmo.

Prevendo a quantidade de venda de vinhos

A uma s�rie temporal do nosso exemplo traz a quantidade de litros de um determinado tipo de vinho (em milhares de litros) vendidos m�s a m�s durante janeiro de 1950 e julho de 1995. Estes dados foram retirados da biblioteca de s�ries temporais criada por Rob Hyndman.

A s�rie temporal utilizada neste exemplo cont�m apenas um conjunto de dados: a quantidade de litros de vinho vendida. A Figura 1 apresenta um gr�fico com os valores da s�rie temporal.

**Figura 1**. Gr�fico com as vendas de milhares de litros de vinho por m�s

O objetivo do uso do algoritmo para s�ries temporais � prever qual ser� a quantidade de litros de vinho vendida nos �ltimos meses de 1995 e nos anos de 1996 e 1997. Apesar de contar com dados antigos, esta s�rie temporal apresenta boas informa��es para um exemplo did�tico.

Vamos utilizar o algoritmo de s�ries temporais do Analisys Services 2005 para elaborar a previs�o desejada. � importante lembrar que este algoritmo pode ser utilizado apenas nas edi��es Standard e Enterprise do SQL Server 2005 e que � necess�ria a instala��o do SQL Server 2005 e do Analisys Services 2005 para o uso deste algoritmo.

O primeiro passo � armazenar os dados em uma tabela do SQL Server 2005. Vamos supor que todos os dados desta s�rie temporal est�o armazenados em uma tabela chamada TB_VENDAS_VINHO, que cont�m as colunas DATA e QTD_VENDIDA, e que esta tabela est� armazenada no banco de dados chamado DB_TIME_SERIES. No final do artigo ser�o disponibilizados para download os dados e os scripts utilizados.

Com os dados j� armazenados � necess�rio configurar o Analisys Services para que ele possa obter os dados por meio de um provider OLE DB. A Figura 2 apresenta a janela de configura��o do Analisys Services, obtida a partir do clique com o bot�o direito do mouse no servidor Analisys Services dentro do Management Studio 2005.

**Figura 2**. Op��es de configura��o do Analisys Services

Basta modificar os valores das op��es em destaque na Figura 2 para que o Analisys Services possa acessar os dados por meio de um provider OLE DB. A op��o AllowedProvidersInOpenRowset deve conter o valor [All] digitado na coluna Value e as demais op��es devem conter o valor true. N�o se esque�am de selecionar a caixa de texto Show Advanced (All) Properties para poderem ter acesso a todas as propriedades.

Uma vez que o servidor esteja configurado podemos montar o Modelo de Minera��o (Mining Model) que ser� utilizado pelo algoritmo de s�ries temporais. Para isso devemos criar uma nova Query DMX (Data Mining Extensions). Estas queries DMX s�o como a linguagem Transact-SQL, por�m o DMX � uma linguagem espec�fica para o uso de Data Mining no SQL Server 2005. Para iniciar uma nova query DMX basta clicar no menu File do Management Studio, escolher a op��o New e a sub-op��o New Analisys Services DMX Query. Em seguida � necess�rio fornecer um login e senha para o servidor Analisys Services. Cuidado com as informa��es fornecidas nesta tela de login: N�O � um login/senha do SQL Server (engine) e sim um login/senha do Analisys Services!

O pr�ximo passo para a execu��o do algoritmo � criar o modelo de minera��o e importar os dados da tabela TB_VENDAS_VINHO. Para criar o modelo de minera��o � necess�rio utilizar o comando CREATE MINING MODEL. Para importar os dados devemos utilizar a instru��o INSERT INTO junto com a fun��o OPENROWSET() que apontar� para o servidor que cont�m o banco de dados TB_TIME_SERIES e a tabela TB_VENDAS_VINHO. Ap�s a cria��o do modelo e a importa��o dos dados vamos indicar ao algoritmo que ele deve prever os pr�ximos 29 valores da s�rie temporal, referentes aos 5 pr�ximos meses de 1995 e aos 24 valores dos meses de 1996 e 1997. A fun��o PredictTimeSeries() ser� utilizada em uma instru��o SELECT que acessa os dados do modelo de minera��o. A Figura 3 apresenta as instru��es para a cria��o do modelo, a importa��o dos dados e a query que faz a previs�o dos novos valores.

**Figura 3**. Cria��o do modelo de minera��o, importa��o dos dados e predi��o dos valores

O resultado da execu��o da instru��o SELECT que faz a predi��o dos dados � apresentado como uma tabela interna e n�o como um conjunto de linhas de colunas. Se o desenvolvedor desejar trabalhar com a manipula��o destes resultados em uma aplica��o basta procurar na documenta��o do .NET Framework por classes e m�todos relacionados ao uso dos algoritmos de Data Mining. Para mais informa��es sobre estes recursos eu recomendo uma boa lida na documenta��o do SQL Server 2005, o Books OnLine.

Inserindo no gr�fico os dados gerados pela execu��o do algoritmo de s�rie temporais pode-se fazer uma an�lise mais detalhada dos novos valores . A Figura 4 apresenta o gr�fico contendo os novos valores para a quantidade de vinho vendida.

**Figura 4**. Vendas de milhares de litros de vinho por m�s

Analisando os dados previstos pelo algoritmo, podemos ver que a previs�o segue o padr�o de vendas hist�rico, onde h� uma queda significativa nas vendas nos primeiros meses dos anos (Janeiro e Fevereiro) e o crescimento das vendas nos meses da metade do ano (Julho e Agosto). Para uma an�lise mais detalhada do motivo destas quedas e crescimentos � necess�rio contar com a ajuda de um especialista no dom�nio. Contudo, o algoritmo prev� uma continuidade deste comportamento. A previs�o forneceu valores aproximados, mas n�o iguais. Outro detalhe que pode ser observado no gr�fico � descontinuidade dos valores entre o que � hist�rico e o que � previsto. Esta descontinuidade foi deixada de prop�sito para separar os dados hist�ricos dos dados que foram previstos pelo algoritmo.

Tecnologias:

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Imaster1 Em 2007

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Data Mining na Pr�tica: Time Series

Veja neste artigo: Algoritmos de Data Mining.