Trabalhando com Windows Functions no PostgreSQL

As Windows Functions s�o trabalhadas com um conjunto de linhas definidas por uma cl�usula OVER, que permite trabalhar com totais, agrupamentos, ordena��es, c�lculos complexos dentre outros. Assim, conseguimos melhorar a performance com ordena��es avan�adas, al�m de limitarmos o n�mero de linhas que ser�o retornadas em um subconjunto de dados associados a uma determinada tabela. As fun��es de agrega��o que s�o definidas pelo usu�rio tamb�m podem atuar como Windows Functions quando estas possuem uma chamada com a palavra-chave OVER.

A seguir veremos com mais detalhes as Windows Functions definidas no PostgreSQL, que hoje s�o um total de 11: cume_dist(), row_number(), rank(), dense_rank(), present_rank(), first_value(), last_value(), nth_value(), ntile(), lag() e a lead().

Estudando as Windows Functions

Fun��o Cume_dist()

Esta � utilizada com o intuito de obtermos a classifica��o da linha atual. Para que este resultado seja obtido � realizado um c�lculo no qual ocorre a divis�o do n�mero de linhas anteriores a linha atual pelo total de linhas encontradas. Essa raz�o � apresentada na f�rmula a seguir, onde o tipo de retorno � o double precision:

Linha atual = (N�mero de linhas anteriores a linha atual)/(n�mero total de linhas)

Na Listagem 1 temos um exemplo simples da cria��o de uma nova tabela, a qual chamaremos de funcionarios_windows_function. O nome do banco de dados fica a crit�rio, mas no nosso caso utilizamos TesteDevmedia.

Listagem 1. Cria��o da tabela funcionarios_windows_function.

CREATE TABLE funcionarios_windows_function
      (
        codigo_func integer NOT NULL,
        nome_func character varying(100) NOT NULL,
        profissao character varying(100) NOT NULL,
        nome_departamento character varying(100) NOT NULL,
        departamento_cod integer NOT NULL,
        salario real,
        CONSTRAINT funcionarios_windows_function_pkey PRIMARY KEY (codigo_func)
      )
      WITH (
        OIDS=FALSE
      );
      ALTER TABLE funcionarios
        OWNER TO postgres;

Com a nossa tabela de testes criada, inserimos alguns dados de teste, como vemos na Listagem 2.

Listagem 2. Inserindo dados na tabela funcionarios_windows_function.

INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (1, 'Edson Dionisio', 'Desenvolvedor Web', 'Desenvolvimento web', 10, 2000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (2, 'Mar�lia K�ssia', 'Scrum Master', 'Desenvolvimento', 10, 6000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (3, 'Caroline Fran�a', 'Desenvolvedor Android', 'Mobile', 30, 2500.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (4, 'Gustavo Fran�a', 'Desenvolvedor IOS', 'Mobile', 30, 2800.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (5, 'Renato silva', 'Desenvolvedor de Sistemas', 'Desenvolvimento de Sistemas', 10, 2000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (6, 'Jo�o dos testes', 'Analista de Testes', 'Testes', 16, 2000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (7, 'Maria das dores', 'An�lista de Software', 'Engenharia de software', 12, 3000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (8, 'Rodrigo Sampaio', 'Desenvolvedor Windows Phone', 'Mobile', 30, 2600.00);

Com a inser��o dos registros na tabela de testes utilizaremos o comando SELECT para ver se as informa��es foram inseridas corretamente:

SELECT * FROM funcionarios_windows_function

Ap�s isso, utilizaremos a mesma consulta, s� que dessa vez adicionando a fun��o cume_dist(), para ver o resultado da opera��o, conforme a seguinte instru��o:

select *, cume_dist() OVER (ORDER BY departamento_cod) from FUNCIONARIOS_WINDOWS_FUNCTION;

Ao utilizarmos a cl�usula OVER para o c�digo do departamento, temos que a fun��o cume_dist() ir� atribuir o mesmo valor para os departamentos que tenham o mesmo c�digo, conforme vemos na Figura 1.

Figura 1. Resultado da utiliza��o da fun��o cume_dist.

Repare que temos a representa��o visual de um ranking sendo apresentado em ordem crescente, com base no c�digo do departamento.

Fun��o row_number()

Essa fun��o � utilizada para obter o n�mero da linha atual dentro de sua parti��o, sendo este iniciado com o valor um. Na Listagem 4 temos um exemplo do seu uso.

Listagem 4. Utilizando a fun��o row_number().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      row_number() 
      OVER (PARTITION BY departamento_cod)
       FROM funcionarios_windows_function;

Como resultado da consulta temos que cada um dos registros apresenta o n�mero de fileiras com base no c�digo dos departamentos, mostrando dessa forma a parti��o entre eles. Podemos ver o resultado da consulta na Figura 2.

Figura 2. Consulta com a fun��o row_number().

A quantidade de parti��es � apresentada com base na quantidade de registros com o mesmo c�digo do departamento, de forma que os departamentos Mobile e de desenvolvimento possuem tr�s registros sendo apresentados na parti��o, enquanto que os demais apresentam apenas uma parti��o.

Fun��o Rank()

A fun��o rank() � utilizada basicamente para obtermos a classifica��o da linha atual onde, em caso de haver empate, o resultado ser� repetido entre as linhas com mesmo c�digo, como mostra a Listagem 5.

Listagem 5. Utilizando a fun��o rank().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      rank() OVER (
      PARTITION BY departamento_cod ORDER BY nome_departamento)
      FROM funcionarios_windows_function;

Como o resultado da consulta anterior temos os departamentos classificados de acordo com o nome, estando estes separados em parti��es, como podemos ver na Figura 3.

Figura 3. Utilizando a fun��o rank().

Agora vamos considerar o seguinte caso: ao inv�s de utilizarmos a fun��o para classificarmos os registros com base no c�digo do departamento, vamos fazer a consulta baseada no nome do departamento, como mostra a Listagem 6.

Listagem 6. Consulta com base no nome do departamento.

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      rank() OVER (ORDER BY nome_departamento)
        FROM funcionarios_windows_function;

A nossa consulta muda o resultado, assim a classifica��o ser� com base no nome do departamento, atribuindo o mesmo valor classificat�rio para os itens repetidos, como podemos ver na Figura 4. Percebam tamb�m que obstru�mos a pesquisa com o PARTITION BY.

Figura 4. Utilizando a fun��o rank() ordenando pelo nome do departamento.

Fun��o dense_rank()

A fun��o dense_rank() tamb�m � utilizada para a obten��o da classifica��o atual dos registros, onde as linhas que apresentam valores iguais para os crit�rios de classifica��o recebem o mesmo valor, apresentando uma numera��o cont�nua. Esta fun��o difere da fun��o rank() em apenas um aspecto: em caso de empate entre duas ou mais linhas, n�o havendo nenhuma lacuna presente na sequ�ncia dos valores classificados. Para demonstrarmos esse exemplo, acompanhe a Listagem 7.

Listagem 7. Utiliza��o da fun��o dense_rank().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      dense_rank() 
      OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

Veja que temos apenas quatro departamentos sendo apresentados, ent�o teremos a classifica��o m�xima com o valor 4, como podemos ver na distribui��o apresentada na Figura 5.

Figura 5. Distribui��o classificat�ria com o dense_rank().

Em caso de utilizarmos a coluna �nome_departamento� na cl�usula OVER, como fizemos anteriormente na Listagem 6, teremos um resultado diferente por conta das diferentes profiss�es cadastradas, como podemos ver na Listagem 8.

Listagem 8. Utiliza��o da coluna �nome_departamento�.

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      dense_rank() 
      OVER (ORDER BY nome_departamento)
      FROM funcionarios_windows_function;

Como resultado desta nova consulta obtivemos o rank gerado at� a sexta posi��o, pois temos seis departamentos distintos sendo apresentados, como mostra a Figura 6.

Figura 6. Classifica��o com base no nome_departamento.

Fun��o percent_rank()

Quando precisamos obter uma classifica��o relativa das classifica��es, podemos utilizar a fun��o percent_rank(), que � utilizada para obtermos a classifica��o relativa da linha atual. Para que tenhamos a posi��o relativa da linha atual, realizamos o c�lculo com base na seguinte f�rmula:

Posi��o relativa da linha atual = (rank - 1) / (n�mero total de linhas - 1)

Vejamos agora com base na Listagem 9, um exemplo simples de sua utiliza��o para uma melhor compreens�o.

Listagem 9. Utilizando a fun��o percent_rank().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      percent_rank() 
      OVER (PARTITION BY departamento_cod ORDER BY profissao)
      FROM funcionarios_windows_function;

Aqui continuamos utilizando a cl�usula PARTITION BY, com rela��o ao c�digo do departamento, dessa forma teremos que a fun��o percent_rank() ser� com base no mesmo c�digo, o que podemos ver na Figura 7.

Figura 7. Utiliza��o da fun��o percent_rank().

Percebam que neste caso, para os departamentos com o mesmo c�digo, obtivemos os valores de 0, 0.5 e 1. Enquanto que os demais registros obtiveram o valor 0.

Fun��o first_value()

Esta fun��o � utilizada para a obten��o do valor presente na primeira linha da tabela. Para isso passamos o nome da coluna requerida como argumento de entrada, como mostra o exemplo da Listagem 10.

Listagem 10. Utilizando a fun��o first_value().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      first_value(departamento_cod) OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function WHERE departamento_cod > 12;

Com base na Listagem 10, temos a consulta na tabela, onde buscamos os registros que tenham o c�digo de departamento maior que 12, ap�s isso aplicamos a cl�usula Order By pelo c�digo do departamento. Dessa forma, como retorno, teremos uma lista contendo os departamentos com c�digo acima de 12. Como utilizamos a fun��o first_value, obtivemos o primeiro c�digo da tabela e este ser� apresentado como resultado para todas as linhas presentes, como podemos ver na Figura 8.

Figura 8. Windows Function first_value().

Num segundo exemplo, poder�amos utilizar a cl�usula order by para ordenarmos os registros por nome do departamento, onde com isso, obteremos um valor diferente para o valor da fun��o first_value(), como podemos ver presente na Listagem 11.

Listagem 11. Ordenando por nome do departamento.

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      first_value(departamento_cod) OVER (ORDER BY nome_departamento)
      FROM funcionarios_windows_function WHERE departamento_cod > 12;

Fun��o last_value()

Ao contr�rio da fun��o first_value(), a fun��o last_value() � utilizada para a obten��o do valor presente na �ltima linha de registro presente na tabela, onde utilizamos o nome da coluna como argumento, de igual forma a fun��o anterior. Podemos ver de acordo com a Listagem 12 como proceder com essa fun��o.

Listagem 12. Utilizando a fun��o last_value().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      last_value(departamento_cod) OVER (ORDER BY nome_departamento)
      FROM funcionarios_windows_function;

Ap�s a consulta, obtivemos o resultado presente na Figura 9, onde o nosso �ltimo registro, com base na ordena��o por nome de departamento, � o departamento de testes, que corresponde ao c�digo do departamento 16.

Figura 9. Utilizando a fun��o last_value().

Fun��o nth_value()

A pr�xima fun��o a ser vista � a nth_value(), a qual nos possibilita receber um valor diferente do inicial e do final, obtendo assim um valor presente na en�sima linha da tabela. Para utilizar esta fun��o passamos o nome da coluna desejada e o en�simo n�mero como argumentos de entrada. Caso o valor informado n�o seja encontrado na tabela, o valor apresentado pela fun��o ser� nulo, como mostra a Listagem 13 como proceder.

Listagem 13. Obtendo resultados com a fun��o nth_value().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      nth_value(nome_departamento, 2) 
      OVER (PARTITION BY departamento_cod ORDER BY nome_departamento)
      FROM funcionarios_windows_function;

Veja que estamos utilizando a cl�usula PARTITION BY para dividirmos os registros com base no c�digo do departamento, onde cada parti��o criada ter� um n�mero de sa�da, que ser� o valor que utilizaremos para a fun��o nth_value. Observe o resultado apresentado na Figura 10.

Figura 10. Utilizando a Windows Function nth_value().

Fun��o ntile()

Esta fun��o nos permite atribuir valores para grupos de resultados, ou seja, um n�mero inteiro a eles. Para melhor entendermos a sua utiliza��o, vejamos o exemplo presente na Listagem 14.

Listagem 14. Utilizando a Window Function ntile().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      ntile(2) 
      OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

A tabela est� dividida em duas parti��es pela fun��o ntile(), como mostra o resultado presente na Figura 11.

Figura 11. Resultado da utiliza��o do ntile().

Neste pr�ximo exemplo da Listagem 15, vejamos como a fun��o ir� se comportar ao utilizarmos o valor 3 como argumento e, com isso, ver o impacto sobre os resultados.

Listagem 15. Utilizando um novo argumento para o ntile().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      ntile(3) 
      OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

Com a mudan�a do argumento, apenas aumentamos a quantidade de parti��es que podem ser utilizadas pelo ntile().

Fun��o Lag()

A fun��o lag() � utilizada para acessarmos mais de uma linha presente na tabela ao mesmo tempo, sem a necessidade de utilizarmos o SELF JOIN. Para entendermos essa funcionalidade vejamos o c�digo da Listagem 16 como proceder.

Listagem 16. Utilizando a fun��o lag().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      lag(departamento_cod, 3) 
      OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

Veja que passamos para a fun��o o c�digo do departamento e como segundo argumento o valor 3. Nessa hora estamos passando um valor para o deslocamento, que no nosso caso � o 3, e isto significa que o cursor vai come�ar a partir do quarto registro da tabela. Dessa forma, faremos uma SELF JOIN com base no c�digo do departamento e o restante dos registros, como mostra a Figura 12.

Figura 12. Utilizando a fun��o Lag().

Fun��o lead()

A �ltima fun��o a ser apresentada � a lead(), a qual � utilizada para obtermos os valores retornados para linhas de registro com base no deslocamento abaixo da linha atual da parti��o. Se o argumento de deslocamento n�o � informado no momento de chamarmos a fun��o, ela ser� definida como um, por padr�o. Vejamos como isso ser� executado com base no exemplo apresentado pela Listagem 17. Neste n�s temos a tabela com base no c�digo do departamento e, em seguida, chamamos a fun��o lead().

Listagem 17. Utilizando a Windows Function lead().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      lead(nome_departamento, 1) 
      OVER (PARTITION BY departamento_cod ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

Podemos ver o resultado da consulta na Figura 13.

Figura 13. Resultado da utiliza��o da fun��o lead().

Com isso finalizamos o nosso artigo, onde vimos fun��es que nos auxiliam com rela��o a melhoria de performance e redu��o de c�digo, no caso de obtermos resultados sem a necessidade realizarmos JOINS entre tabelas. Esperamos que tenham gostado. At� a pr�xima! =)

Link

Documenta��o
http://www.postgresql.org/docs/9.4/static/tutorial-window.html