Oracle 12c: Conhe�a a cl�usula Pattern Matching

Por que eu devo ler este artigo: Este artigo � �til quando queremos pesquisar e encontrar padr�es nas linhas que est�o armazenadas no nosso banco de dados. Iremos aprender a utilizar a nova cl�usula introduzida na vers�o 12c do Oracle, a MATCH_RECOGNIZE. Com ela poderemos criar e identificar esses padr�es. Com essa nova sintaxe, podemos fazer o mesmo trabalho de antes, mas de uma maneira muito mais simples, ganhando em performance, escalabilidade e manuten��o. Vamos aprender, com a ajuda de exemplos, o que s�o esses padr�es, como defini-los e encontr�-los nas linhas correspondentes, e o que podemos ganhar com isso.

Conhecendo a vers�o Oracle 12c

Estamos vivendo em uma �poca em que a informa��o est� sendo cada vez mais valorizada e necess�ria. Podemos constatar isso com o aumento de ofertas de emprego na �rea de BI, onde s�o analisados os dados da empresa para apoiar as atividades de tomada de decis�o. Encontrar padr�es no consumo dos clientes, nas ofertas de certo produto etc., est� cada vez mais comum e quase que mandat�rio em uma empresa que deseja sobreviver nesse mundo cada vez mais competitivo.

Encontrar esses padr�es j� era poss�vel em vers�es anteriores a 12c do Oracle, mas essas solu��es eram dif�ceis de se escrever, de entender e muitas vezes ineficientes ao executar, consumindo recursos consider�veis no processo. Com a ajuda das novas cl�usulas e sintaxe do 12c, o mesmo processo ficou agora nativo ao SQL e podemos, assim, alcan�ar resultados melhores de forma bem mais eficiente.

Podem existir diferentes tipos de padr�es, tudo depende daquilo que estamos procurando. Alguns exemplos seriam: padr�o de pre�os, em que diferentes �pocas do ano o pre�o sobe e desce de acordo com o mercado, ou apenas o n�mero bruto de vendas, quantidade de visitas em um site, comportamento em aplica��es financeiras para detec��o de fraude, etc. Neste artigo iremos abordar como definir esses padr�es, agora com a sintaxe nativa do SQL, e como pesquisar por isso nas linhas que est�o armazenadas no banco de dados. Iremos aprender a utilizar a nova cl�usula introduzida na vers�o 12c do Oracle, MATCH_RECOGNIZE, que ir� nos ajudar a identificar padr�es atrav�s de uma sequ�ncia de linhas armazenadas no banco. Com essa nova sintaxe, podemos fazer o mesmo trabalho de antes, mas de uma maneira muito mais simples, ganhando em performance, escalabilidade e manuten��o. Vamos aprender o que s�o esses padr�es, como defini-los e encontr�-los nas linhas correspondentes, e o que podemos ganhar com isso.

Curso relacionado: Curso de Oracle

DEFINE

Entre todas as novas cl�usulas da sintaxe do Oracle relacionadas a Pattern Matching, a primeira que vamos falar � a DEFINE. Com essa cl�usula, que � obrigat�ria, podemos definir vari�veis de padr�o prim�rias que ser�o ent�o utilizadas para criar o padr�o final que ser� utilizado para realizar a busca nas linhas. A pergunta que devemos fazer �: que caracter�sticas definem o meu padr�o?

Vamos utilizar um exemplo cl�ssico, que � o hist�rico de pre�os de um produto, algo bem comum em sites que buscam o melhor pre�o para um determinado produto, guardando assim o seu hist�rico para saber se o pre�o realmente est� bom ou n�o. Vamos analisar a Figura 1.

Gr�fico de pre�os de um determinado
produto em um per�odo de tempo — **Figura 1**. Gr�fico de pre�os de um determinado produto em um per�odo de tempo.

Olhando rapidamente para esse gr�fico, podemos encontrar o pre�o do produto em um determinado dia. Mas podemos ver mais nesse gr�fico do que apenas isso. Podemos encontrar alguns padr�es, como as varia��es de pre�os em forma de �V�, onde o pre�o come�a a baixar em um determinado momento e depois come�a a subir at� certo ponto. Ou at� mesmo um �W� em que esse mesmo processo ocorre duas vezes. Antes de definir esse padr�o, precisamos das vari�veis que ser�o utilizadas nesse padr�o, que nada mais � que uma condi��o que dever� ser cumprida para que uma linha seja mapeada para essa vari�vel.

� isso o que a cl�usula DEFINE faz. Vamos ver agora como definir essas vari�veis utilizando o exemplo do gr�fico. Quais s�o as caracter�sticas do padr�o em �V� que est� compreendido entre os dias 5 e 10? O dia 5 � o ponto de partida, onde o pre�o estava alto e a pr�xima mudan�a de pre�o � quando possivelmente existiu uma promo��o, no dia 6. Essa foi caracterizada por uma decida no pre�o, a primeira perna do nosso �v�. A parti do dia 7 at� o dia 10, o pre�o come�a a subir at� atingir o pre�o mais alto, antes de come�ar a cair novamente. Ent�o devemos ter tr�s vari�veis, o in�cio, a descida e a subida. A cl�usula ficaria como nos mostra o c�digo da Listagem 1.

Listagem 1. Criando um padr�o com duas vari�veis.

DEFINE
    SUB AS SUB.preco > PREV(SUB.preco),
    DES AS DES.PRECO < PREV(DES.preco)

Definimos ent�o duas vari�veis de padr�o. A primeira identificada com SUB, faz a compara��o com a linha anterior, PREV, para saber se tem um pre�o maior ou n�o. Se tiver, essa linha ser� mapeada como SUB. A vari�vel DES � exatamente o contr�rio, comparando se tem um valor menor que a linha anterior, assim essa linha ser� mapeada como DES. Agora faltou uma vari�vel para o in�cio do padr�o. Acontece que nem toda vari�vel precisa de uma defini��o, significando que qualquer linha pode ent�o ser mapeada para esse padr�o, que � o caso do que veremos mais adiante.

PATTERN

Aqui definimos qual � o padr�o que ser� pesquisado em todas as linhas. Nessa cl�usula, utilizamos as vari�veis definidas em DEFINE para criar esse padr�o. Descrevemos de forma simples, a sequ�ncia em que as linhas ser�o mapeadas entre as vari�veis e a quantidade de linhas. Podemos utilizar express�es regulares para tornar a nossa busca ainda mais poderosa. Veja um exemplo na linha a seguir:

Curso relacionado: Design Patterns

PATTERN (INI, DES+, SUB+)

Nesse exemplo utilizamos uma vari�vel INI, que n�o foi definida na Listagem 1, ou seja, qualquer linha pode ser mapeada como INI, o nosso ponto de partida. Logo ap�s temos uma a vari�vel DESC, que significa que a pr�xima linha dever� ter um pre�o menor que a linha mapeada como INI. O s�mbolo de �+� significa que pelo menos uma linha dever� ser mapeada ou mais como essa vari�vel. E logo ap�s temos a �ltima vari�vel, SUB, que tamb�m tem que ter pelo menos uma ou mais linhas mapeadas, indicando um aumento no pre�o. Formando assim um padr�o de �V�.

Para que esse padr�o seja encontrado, um conjunto de linhas cont�nuas dever�o ser mapeadas conforme a sequ�ncia definida em PATTERN e todas as condi��es em DEFINE dever�o ser verdadeiras. A defini��o desse padr�o poder� ser algo bem mais avan�ada do que esse exemplo. Para isso, � necess�rio ter um bom conhecimento sobre express�es regulares.

MEASURES

Aqui definimos as medidas, que ser�o apresentadas em forma de uma lista de colunas como resultado final para cada combina��o de padr�o encontrada. Aqui podemos usar fun��es junto com as vari�veis de padr�o, al�m de operadores de navega��o, como o PREV que j� vimos anteriormente. Vejamos um exemplo na Listagem 2.

Listagem 2. Criando measures.


  01 MEASURES INI.data AS data_inicio,
  02          INI.preco AS preco_inical,
  03          LAST(DES.data) AS data_menor_preco,
  04          LAST(DES.preco) AS menor_preco,
  05          LAST(SUB.data) AS data_menor_preco,
  06          LAST(SUB.preco) AS menor_preco

Nessa listagem definimos qual ser� o retorno da nossa query em formato de colunas ao encontrar uma combina��o de padr�o. As duas primeiras colunas, definidas nas linhas 01 e 02, est�o referenciando a vari�vel INI, que n�o tem defini��o, ou seja, poder� ser qualquer linha (como o in�cio do nosso padr�o). Ir� ent�o exibir tanto o pre�o inicial como a data inicial do nosso ponto de partida do padr�o. Logo ap�s isso, nas linhas 03 a 06 temos a refer�ncia �s vari�veis DES e SUB, que foram definidas na Listagem 1, que � uma linha que tem um pre�o menor que a sua anterior (DES) e uma linha com um pre�o maior que a anterior (SUB). Tamb�m ir� exibir a data e o pre�o da linha. Note o uso da fun��o de navega��o LAST. Com o uso dessa fun��o, garantimos que o valor retornado ser� o �ltimo para cada padr�o, tanto o de descida quanto o de subida, sendo ent�o o menor e o maior pre�o, respectivamente.

AFTER MATCH SKIP

Essa cl�usula se refere a determinar o ponto para retomar a busca por um padr�o ap�s ter encontrado uma correspond�ncia. Ou seja, a partir de qual linha poder� ser contado como in�cio para uma pr�xima combina��o de padr�o. Temos algumas op��es dispon�veis, que s�o:

AFTER MATCH SKIP TO NEXT ROW: ser� determinado como ponto de partida a linha ap�s a primeira linha do padr�o atual encontrado;
AFTER MATCH SKIP PAST LAST ROW: ser� determinado como ponto de partida a linha ap�s a �ltima linha do padr�o atual encontrado. Esse � o valor default;
AFTER MATCH SKIP TO FIRST variavel_padrao: ser� determinado como ponto de partida a primeira linha mapeada para uma determinada vari�vel de padr�o;
AFTER MATCH SKIP TO [LAST] variavel_padrao: ser� determinado como ponto de partida a �ltima linha mapeada para uma determinada vari�vel de padr�o.

Deve-se ter alguns cuidados ao escolher o ponto de retorno para a busca de uma nova combina��o de padr�o, pois poder� n�o ser encontrado nada ou at� mesmo ficar em um estado de loop infinito, gerando assim exce��es. Um exemplo seria retomar para uma vari�vel padr�o, mas se no DEFINE essa vari�vel for opcional e n�o tiver nenhuma linha mapeada para ela (n�o existindo assim um ponto de retomada), ser� gerada uma exce��o em tempo de execu��o. Outro exemplo seria utilizar o ponto de retorno para uma determinada vari�vel sendo que ela tamb�m foi o in�cio da combina��o de padr�o atual, formando assim um loop infinito, gerando tamb�m uma exce��o em tempo de execu��o.

Algumas outras cl�usulas importantes

Temos algumas outras cl�usulas importantes a serem mencionadas antes de termos um exemplo pr�tico. Veja alguma delas:

(ONE ROW | ALL ROWS) PER MATCH: aqui escolhemos se para cada vari�vel de padr�o encontrada, ser�o exibidas todas as linhas mapeadas ou apenas uma como um resumo;
PARTITION BY coluna: dividimos as linhas em grupos de acordo com os valores em comum na coluna especificada. Algo similar ao GROUP BY;
ORDER BY: ordena as linhas, com os seus grupos, para serem localizados os padr�es.

Essas �ltimas duas cl�usulas s�o j� bem conhecidas por quem usa fun��es anal�ticas. Temos tamb�m algumas fun��es importantes para mencionar, que s�o:

CLASSIFIER(): retorna qual foi a vari�vel de padr�o na qual a linha foi mapeada;
MATCH_NUMBER(): atribui um n�mero em sequ�ncia para cada padr�o encontrado, retornando assim em qual padr�o, da sequ�ncia, aquela linha pertence.

Como os dados s�o processados

Ap�s ter conhecido as cl�usulas e fun��es mais importantes, vamos ver como � o processamento de uma query com a cl�usula MATCH_RECOGNIZE em alguns passos simples:

A tabela ser� particionada em grupos de acordo com a cl�usula PARTITION BY, onde cada grupo tem o mesmo valor em uma determinada coluna;
Cada parti��o ser� ordenada pelo ORDER BY;
Se inicia ent�o em cada parti��o a busca pelo padr�o definido em PATTERN;
A busca se inicia na primeira linha e as seguintes para encontrar uma combina��o como definida em PATTERN. Se n�o for encontrado nada, a busca ir� se iniciar na linha seguinte e assim por diante. Caso seja encontrada uma combina��o positiva, s�o calculadas as express�es presentes na cl�usula MEASURES;
S�o retornadas as quantidades de linhas de acordo com a cl�usula ONE ROW PER MATCH ou ALL ROWS PER MATCH;
E para finalizar, ap�s uma combina��o de padr�o, a cl�usula AFTER MATCH SKIP ir� informar aonde ir� se retomar o processo de pesquisa por mais uma combina��o de padr�o.

Criando o ambiente de testes

Para iniciar a demonstra��o do uso do MATCH_RECOGNIZE, devemos criar uma tabela onde ir�o ficar os registros de testes, que nada mais s�o que um hist�rico de pre�os de determinados produtos. Ap�s isso, ser�o inseridas algumas linhas para popular a tabela e realizar uma query. � nessa tabela que iremos fazer a busca pelos padr�es. Na estrutura dessa tabela temos o ID, produto, pre�o e data da venda. Confira a Listagem 3.

Listagem 3. Criando o ambiente de testes.

CREATE TABLE teste_pattern (
    pattern_id NUMBER,
    produto VARCHAR2(20),
    data_venda DATE,
    preco NUMBER
  );
  /
   
  INSERT INTO teste_pattern VALUES(1, "JAVA", sysdate, 20);
  INSERT INTO teste_pattern VALUES(2, "ORACLEDB", sysdate, 200);
  INSERT INTO teste_pattern VALUES(3, "ORACLEDB", sysdate+1, 190);
  INSERT INTO teste_pattern VALUES(4, "ORACLEDB", sysdate+2, 185);
  INSERT INTO teste_pattern VALUES(5, "ORACLEDB", sysdate+3, 190);
  INSERT INTO teste_pattern VALUES(6, "ORACLEDB", sysdate+4, 210);
  INSERT INTO teste_pattern VALUES(7, "JAVA", sysdate+5, 25);
  INSERT INTO teste_pattern VALUES(8, "JAVA", sysdate+6, 15);
  INSERT INTO teste_pattern VALUES(9, "JAVA", sysdate+7, 10);
  INSERT INTO teste_pattern VALUES(10, "JAVA", sysdate+8, 25);
  INSERT INTO teste_pattern VALUES(11, "ORACLEDB", sysdate+9, 210);
  INSERT INTO teste_pattern VALUES(12, "ORACLEDB", sysdate+10, 150);
  INSERT INTO teste_pattern VALUES(13, "JAVA", sysdate+11, 30);
  INSERT INTO teste_pattern VALUES(14, "ORACLEDB", sysdate+12, 180);
  INSERT INTO teste_pattern VALUES(15, "ORACLEDB", sysdate+13, 300);
  INSERT INTO teste_pattern VALUES(16, "JAVA", sysdate+14, 35);
  INSERT INTO teste_pattern VALUES(17, "JAVA", sysdate+15, 25);
  INSERT INTO teste_pattern VALUES(18, "JAVA", sysdate+16, 30);
  INSERT INTO teste_pattern VALUES(19, "ORACLEDB", sysdate+17, 250);
  INSERT INTO teste_pattern VALUES(20, "ORACLEDB", sysdate+18, 350);

Vamos analisar um pouco o conte�do da tabela teste_pattern, que possui apenas quatro colunas. Al�m do ID da venda, temos o produto, que s�o apenas dois, JAVA e ORACLEDB. Nas pr�ximas duas colunas temos a data da venda e o pre�o que o produto foi vendido. Nas instru��es em sequ�ncia, temos uma s�rie de INSERTs, que cobre um per�odo de 18 dias e tem uma varia��o de pre�o dos dois produtos j� mencionados. Apenas com essas informa��es, podemos criar e pesquisar por padr�es. Iremos utilizar tudo o que foi visto anteriormente na explica��o de cada uma das cl�usulas mais comuns. Veja um primeiro exemplo na Listagem 4.

Listagem 4. MATCH_RECOGNIZE.


  01 SELECT *
  02 FROM teste_pattern MATCH_RECOGNIZE (
  03      PARTITION BY produto
  04      ORDER BY data_venda
  05      MEASURES INI.data_venda AS data_inicio,
  06               LAST(DES.data_venda) AS data_menor_preco,
  07               LAST(DES.preco) AS menor_preco,
  08               LAST(SUB.data_venda) AS data_maior_preco,
  09               LAST(SUB.preco) AS maior_preco
  10      ONE ROW PER MATCH
  11      AFTER MATCH SKIP TO LAST SUB
  12      PATTERN (INI DES+ SUB+)
  13      DEFINE
  14         DES AS DES.preco < PREV(DES.preco),
  15         SUB AS SUB.preco > PREV(SUB.preco)
  16      ) MR
  17 ORDER BY MR.produto, MR.data_inicio;
  18 /

Na linha 2 foi utilizada a cl�usula MATCH_RECOGNIZE, que possibilita criar e pesquisar por padr�es. Logo nas linhas 3 e 4, foi definido que a parti��o ser� feita com base nos valores da coluna produto, que no caso ser� duas parti��es, e que cada parti��o ser� ordenada com base na coluna data_venda. As vari�veis de padr�o foram definidas nas linhas 14 e 15 e utilizadas para criar o padr�o na linha 12. Na linha 10 foi definido que para cada padr�o encontrado s� ser� exibida uma linha e n�o todas as linhas que foram mapeadas para as vari�veis de padr�o. J� na linha 11 indicamos onde recome�ar pela busca de um novo padr�o ap�s j� ter encontrado um, no caso foi escolhida a �ltima linha mapeada como SUB, ou seja, a �ltima linha de um padr�o poder� ser o in�cio de outro padr�o. E, para finalizar, nas linhas 5 at� 9 foram definidas as medidas que ser�o apresentadas como resultado final em forma de colunas. Veja esse resultado na Listagem 5.

Listagem 5. Resultado gerado.


  01 PRODUTO  DATA_INICIO DATA_MENOR_PRECO MENOR_PRECO DATA_MAIOR_PRECO MAIOR_PRECO
  02 JAVA        30/05/16         01/06/16          10         08/06/16          35
  03 JAVA        08/06/16         09/06/16          25         10/06/16          30
  04 ORACLEDB    25/05/16         27/05/16         185         29/05/16         210
  05 ORACLEDB    03/06/16         04/06/16         150         07/06/16         300
  06 ORACLEDB    07/06/16         11/06/16         250         12/06/16         350

Aqui podemos verificar o resultado da nossa primeira query. Al�m das colunas que definimos na cl�usula MEASURES, foi retornada a coluna produto, que foi a condi��o da nossa cl�usula PARTITION BY. Os resultados est�o ordenados de acordo com a cl�usula ORDER BY da linha 17 da Listagem 4. Foram encontrados dois padr�es para o produto JAVA, conforme as linhas 2 e 3, e tr�s padr�es para o produto ORACLEDB, que est�o representados nas linhas 4 a 6. Para cada um dos padr�es encontrados � mostrada a data de in�cio, do menor pre�o e do maior pre�o, juntamente com os respectivos pre�os nessas datas. Para cada padr�o � exibida apenas uma linha, como uma esp�cie de resumo. Podemos constatar esse resultado verificando a Figura 2.

Compare os resultados da Listagem 5 com a Figura 2. Vamos pegar um exemplo de padr�o e comparar com o nosso gr�fico. Veja a linha 5 da Listagem 5. Esse padr�o indica que o ponto de partida foi no dia 03/06/2016, se olhar no gr�fico, ver� que o valor do produto ORACLEDB, linha em laranja, era de 210, ap�s isso o valor do produto sofreu uma queda chegando a ser cotado com o menor valor em 150, no dia 04/06/2016. Ap�s isso, o pre�o come�ou a subir tendo o valor de 180 e depois 300 como o valor mais alto no dia 07/06/2016. Isso foi um exemplo de padr�o em forma de �V�, que foi definido como sendo o PATTERN INI, DES+, SUB+.

Se for necess�ria mais informa��o no retorno do padr�o, como cada pre�o e cada data que foi mapeado, deve ser utilizada a cl�usula ALL ROWS PER MATCH. Mas talvez fique dif�cil de identificar cada linha com os seus respectivos padr�es e o que significa cada uma dessas linhas. Para auxiliar nisto, existem duas fun��es que podem nos ajudar a identificar cada linha.

Classifier e Match_number

Existem duas fun��es que podem nos ajudar a identificar cada linha retornada quando � utilizado ALL ROWS PER MATCH, visto que o n�mero de linhas retornado pode ser muito grande para cada padr�o. A primeira fun��o, a CLASSIFIER, retorna a vari�vel padr�o na qual aquela linha foi mapeada. J� a fun��o MATCH_NUMBER retorna um n�mero inteiro positivo em sequ�ncia, para cada padr�o encontrado, representando a qual padr�o aquela linha pertence. Para visualizar melhor como essas fun��es funcionam, iremos analisar mais um exemplo.

Contudo, antes disso, devemos entender que ao mudar de ONE ROW para ALL ROWS, o comportamento das medidas em MEASURES pode ser alterado. Isso ocorre por que, por default, � utilizado o modificador ou fun��o de navega��o RUNNING, que significa que o valor calculado naquela linha n�o ser� considerado o padr�o inteiro, mas ser� considerada a linha corrente e as anteriores da mesma, mesmo que existam muitas linhas depois dela que ser�o inclu�das no mesmo padr�o. Um exemplo disso seria a medida do menor pre�o, que talvez n�o exiba o menor pre�o que foi encontrado no padr�o inteiro, mas sim o menor pre�o at� aquela linha. Para corrigir isso, caso n�o seja o desejado, deve-se utilizar o modificador FINAL, que ir� ent�o considerar todas as linhas do mesmo padr�o. Observe agora a Listagem 6.

Listagem 6. Utiliza��o do CLASSIFIER, MATCH_NUMBER e FINAL.


  01 SELECT *
  02 FROM teste_pattern MATCH_RECOGNIZE (
  03      PARTITION BY produto
  04      ORDER BY data_venda
  05      MEASURES INI.data_venda AS inicio,
  06               LAST(SUB.preco) AS maior_preco,
  07               FINAL LAST(SUB.preco) AS maior_final,
  08               MATCH_NUMBER() AS padrao,
  19               CLASSIFIER() AS var_padrao
  10      ALL ROWS PER MATCH
  11      AFTER MATCH SKIP TO LAST SUB
  12      PATTERN (INI DES+ SUB+)
  13      DEFINE
  14         DES AS DES.preco < PREV(DES.preco),
  15         SUB AS SUB.preco > PREV(SUB.preco)
  16      ) MR
  17 ORDER BY MR.produto, MR.data_veda;

Vamos entender as altera��es feitas nessa listagem. A primeira modifica��o foi feita na cl�usula MEASURES. Nela alteramos algumas medidas, removemos algumas listagens e adicionamos outras. Na linha 7 adicionamos o modificador FINAL, conforme j� foi discutido, e assim podemos comparar com o retorno da medida na linha 6, que � a mesma medida, mas sem modificador nenhum expl�cito, ou seja, utilizou o modificador default, que � o RUNNING no caso. Nas linhas 8 e 9 adicionamos o uso das fun��es CLASSIFIER e MATCH_NUMBER para identificar melhor o que cada linha representa, j� que na linha 11 foi informado para retornar todas as linhas por padr�o, e n�o apenas uma como no exemplo anterior. Observe o resultado agora na Listagem 7.

Listagem 7. Uso das fun��es CLASSIFIER e MATCH_NUMBER.


PRODUTO DATA_VENDA INICIO MAIOR_PRECO MAIOR_FINAL PADRAO VAR_PADRAO PATTERN_ID PRECO
  JAVA     30/05/16 30/05/16                35        1       INI         7        25
  JAVA     31/05/16 30/05/16                35        1       DES         8        15
  JAVA     01/06/16 30/05/16                35        1       DES         9        10
  JAVA     02/06/16 30/05/16    25          35        1       SUB         10       25
  JAVA     05/06/16 30/05/16    30          35        1       SUB         13       30
  JAVA     08/06/16 30/05/16    35          35        1       SUB         16       35
  JAVA     08/06/16 08/06/16                30        2       INI         16       35
  JAVA     09/06/16 08/06/16                30        2       DES         17       25
  JAVA     10/06/16 08/06/16    30          30        2       SUB         18       30
  ORACLEDB 25/05/16 25/05/16                210       1       INI         2       200
  ORACLEDB 26/05/16 25/05/16                210       1       DES         3       190
  ORACLEDB 27/05/16 25/05/16                210       1       DES         4       185
  ORACLEDB 28/05/16 25/05/16    190         210       1       SUB         5       190
  ORACLEDB 29/05/16 25/05/16    210         210       1       SUB         6       210
  ORACLEDB 03/06/16 03/06/16                300       2       INI         11      210
  ORACLEDB 04/06/16 03/06/16                300       2       DES         12      150
  ORACLEDB 06/06/16 03/06/16    180         300       2       SUB         14      180
  ORACLEDB 07/06/16 03/06/16    300         300       2       SUB         15      300
  ORACLEDB 07/06/16 07/06/16                350       3       INI         15      300
  ORACLEDB 11/06/16 07/06/16                350       3       DES         19      250
  ORACLEDB 12/06/16 07/06/16    350         350       3       SUB         20      350

Agora podemos analisar todas as linhas em cada padr�o. A coluna PADRAO poder� nos ajudar nessa tarefa, j� que com a ajuda da fun��o MATCH_NUMBER, podemos identificar a qual padr�o aquela linha pertence. J� para a coluna VAR_PADRAO foi utilizada a fun��o CLASSIFIER, que nos retorna para qual vari�vel de padr�o aquela linha foi mapeada. Agora podemos saber quem � o in�cio, a descida de pre�o e depois a subida de pre�o.

Agora vamos analisar em conjunto duas colunas, a MAIOR_PRECO e MAIOR_FINAL. As medidas que essas colunas fazem s�o as mesmas, a �nica diferen�a � que uma utiliza o modificador FINAL e a outra, sem o modificador, utiliza o RUNNING. Vamos pegar o primeiro padr�o do produto JAVA como exemplo. Repare que desde a primeira linha a coluna MAIOR_FINAL j� mostra o maior pre�o encontrado em todo o padr�o. J� a linha MAIOR_PRECO retorna NULL no in�cio e na descida. J� na subida, conforme ele encontra um pre�o maior que o anterior ele vai retornando esse valor, at� encontrar o maior pre�o em todo o padr�o, apenas na �ltima linha do padr�o. Isso ocorre por que essa coluna usa o modificar default RUNNING e ele verifica apenas a linha atual e as anteriores que j� foram analisadas.

Note tamb�m que algumas linhas foram mapeadas duas vezes, uma em cada padr�o diferente. Um exemplo foi a linha com o PATTERN_ID 15. Perceba que ela foi mapeada como SUB, �ltima linha, no segundo padr�o do produto ORACLEDB e como INI no terceiro padr�o do mesmo produto. Esse comportamento ocorrer a depender de como foi utilizada a cl�usula AFTER MATCH SKIP. No nosso exemplo foi para SKIP TO LAST SUB, indicando que o ponto de partida para a procura de um novo padr�o ser� a �ltima linha mapeada como SUB. Ou seja, essa linha poder� ser contada como in�cio de outro padr�o.

Diferentes tipos de padr�o

At� aqui, em todos os nossos testes e exemplos, foi considerado um �nico tipo de padr�o em forma de �V�. Vejamos agora como definir outros tipos de padr�o, como um em forma de �W�, onde o padr�o anterior que j� utilizamos, em forma de �V�, ocorre duas vezes seguidas. Confira como ficaria essa query na Listagem 8.

Listagem 8. Padr�o em Forma de �W�.


  01 SELECT *
  02 FROM teste_pattern MATCH_RECOGNIZE (
  03      PARTITION BY produto
  04      ORDER BY data_venda
  05      MEASURES MATCH_NUMBER() AS padrao,
  06               CLASSIFIER() AS variavel_padrao
  07      ALL ROWS PER MATCH
  08      AFTER MATCH SKIP TO LAST SUB
  09      PATTERN (INI DES+ SUB+ DES+ SUB+)
  10      DEFINE
  11         DES AS DES.preco < PREV(DES.preco),
  12         SUB AS SUB.preco > PREV(SUB.preco)
  13      ) MR
  14 ORDER BY MR.produto, MR.data_venda;

Para melhorar a compress�o do retorno da query, a cl�usula MEASURES, nas linhas 5 e 6, foi modificada para retornar pouca informa��o. Na linha 9 foi criado o nosso padr�o, utilizando as vari�veis de padr�o nas linhas 11 e 12. L� foi informado que ap�s o in�cio do padr�o, o pre�o iria descer, depois subir e refazer o processo de descer e subir, formando assim uma forma de �W� no gr�fico da Figura 2. Vamos analisar o retorno dessa query na Listagem 9.

Listagem 9. Padr�o em Forma de �W�.


PRODUTO    DATA_VENDA    PADRAO VARIAVEL_PADRAO    PATTERN_ID   PRECO
  JAVA        30/05/16       1         INI             7         25
  JAVA        31/05/16       1         DES             8         15
  JAVA        01/06/16       1         DES             9         10
  JAVA        02/06/16       1         SUB             10        25
  JAVA        05/06/16       1         SUB             13        30
  JAVA        08/06/16       1         SUB             16        35
  JAVA        09/06/16       1         DES             17        25
  JAVA        10/06/16       1         SUB             18        30
  ORACLEDB    03/06/16       1         INI             11        210
  ORACLEDB    04/06/16       1         DES             12        150
  ORACLEDB    06/06/16       1         SUB             14        180
  ORACLEDB    07/06/16       1         SUB             15        300
  ORACLEDB    11/06/16       1         DES             19        250
  ORACLEDB    12/06/16       1         SUB             20        350

Essa listagem retorna dois padr�es, um para cada produto, onde foi encontrada uma combina��o positiva do padr�o em forma de �W�. Pode-se constatar isso observando o gr�fico na Figura 2. Podemos verificar isso tamb�m pela ordem em que as vari�veis de padr�o retornadas pela fun��o CLASSIFIER na coluna VARIAVEL_PADRAO � retornada, sendo exatamente a mesma ordem que aparece na cl�usula PATTERN. Isso evid�ncia que as possibilidades de criar padr�es diferentes s�o muitas.

At� agora, todos os nossos exemplos foram baseados no valor de cada produto em uma determinada data. Vejamos agora, na Listagem 10, um exemplo de padr�o um pouco diferente, referente � quantidade de determinados produtos vendidos em uma certa sequ�ncia.

Listagem 10. Padr�o de quantidade de determinados produtos vendidos.


  01 SELECT *
  02 FROM teste_pattern MATCH_RECOGNIZE (
  03      ORDER BY data_venda
  04      MEASURES MATCH_NUMBER() AS padrao,
  05               CLASSIFIER() AS variavel_padrao
  06      ALL ROWS PER MATCH
  07      AFTER MATCH SKIP PAST LAST ROW
  08      PATTERN (JAV{2,4} ORA{1,2})
  09      DEFINE
  11         JAV AS JAV.produto = "JAVA",
  12         ORA AS ORA.produto = "ORACLEDB"
  13      ) MR
  14 ORDER BY MR.data_venda, MR.padrao;.
  15
  16 DATA_VENDA PADRAO VARIAVEL_PADRAO PATTERN_ID PRODUTO PRECO
  17 30/05/16     1         JAV             7    JAVA       25
  18 31/05/16     1         JAV             8    JAVA       15
  19 01/06/16     1         JAV             9    JAVA       10
  20 02/06/16     1         JAV             10   JAVA       25
  21 03/06/16     1         ORA             11   ORACLEDB   210
  22 04/06/16     1         ORA             12   ORACLEDB   150
  23 08/06/16     2         JAV             16   JAVA       35
  24 09/06/16     2         JAV             17   JAVA       25
  25 10/06/16     2         JAV             18   JAVA       30
  26 11/06/16     2         ORA             19   ORACLEDB   250
  27 12/06/16     2         ORA             20   ORACLEDB   350

O primeiro item a se notar � que n�o criamos parti��o nenhuma. Nas linhas 11 e 12 foram definidas duas vari�veis de padr�o onde verificamos qual foi o produto vendido. Ap�s isso, o padr�o foi criado na linha 8 utilizando essas mesmas vari�veis j� citadas. Aqui utilizamos o poder das express�es regulares, onde definimos que primeiro teria que ter sido vendido entre 2 e 4 produtos JAVA e, ap�s isso, entre 1 e 2 produtos ORACLEDB. Toda essa verifica��o � feita respeitando a ordem das linhas que foi imposta na linha 3, no ORDER BY. A �ltima diferen�a desse exemplo para os anteriores se encontra na linha 7, onde foi definido que a busca de uma nova combina��o de padr�o ser� feita na linha seguinte � �ltima linha do padr�o atual encontrado. Sendo assim, uma mesma linha n�o poder� ser mapeada em dois padr�es diferentes.

Todos os exemplos utilizados aqui foram apenas para ajudar no entendimento dessa nova cl�usula, que em um primeiro momento pode parecer um pouco complicada, mas que na verdade n�o �. A vers�o 12c do Oracle trouxe grandes avan�os na sintaxe do SQL, um bom exemplo disso � a nova cl�usula MATCH_RECOGNIZE. Com ela podemos fazer tudo nativamente, a cria��o e a pesquisa de padr�es, ganhando assim bastante em performance, escalabilidade e manuten��o. Caso seja necess�rio, sempre utilize essas novas cl�usulas e, para formas mais avan�adas do que as apresentadas aqui, consulte a documenta��o do Oracle.