Trabalhando com Windows Functions no PostgreSQL

As Windows Functions s�o trabalhadas com um conjunto de linhas definidas por uma cl�usula OVER, que permite trabalhar com totais, agrupamentos, ordenaç�es, c�lculos complexos dentre outros. Assim, conseguimos melhorar a performance com ordenaç�es avançadas, al�m de limitarmos o n�mero de linhas que ser�o retornadas em um subconjunto de dados associados a uma determinada tabela. As funç�es de agregaç�o que s�o definidas pelo usu�rio tamb�m podem atuar como Windows Functions quando estas possuem uma chamada com a palavra-chave OVER.

A seguir veremos com mais detalhes as Windows Functions definidas no PostgreSQL, que hoje s�o um total de 11: cume_dist(), row_number(), rank(), dense_rank(), present_rank(), first_value(), last_value(), nth_value(), ntile(), lag() e a lead().

Estudando as Windows Functions

Funç�o Cume_dist()

Esta � utilizada com o intuito de obtermos a classificaç�o da linha atual. Para que este resultado seja obtido � realizado um c�lculo no qual ocorre a divis�o do n�mero de linhas anteriores a linha atual pelo total de linhas encontradas. Essa raz�o � apresentada na f�rmula a seguir, onde o tipo de retorno � o double precision:

Linha atual = (N�mero de linhas anteriores a linha atual)/(n�mero total de linhas)

Na Listagem 1 temos um exemplo simples da criaç�o de uma nova tabela, a qual chamaremos de funcionarios_windows_function. O nome do banco de dados fica a crit�rio, mas no nosso caso utilizamos TesteDevmedia.

Listagem 1. Criaç�o da tabela funcionarios_windows_function.

CREATE TABLE funcionarios_windows_function
      (
        codigo_func integer NOT NULL,
        nome_func character varying(100) NOT NULL,
        profissao character varying(100) NOT NULL,
        nome_departamento character varying(100) NOT NULL,
        departamento_cod integer NOT NULL,
        salario real,
        CONSTRAINT funcionarios_windows_function_pkey PRIMARY KEY (codigo_func)
      )
      WITH (
        OIDS=FALSE
      );
      ALTER TABLE funcionarios
        OWNER TO postgres;

Com a nossa tabela de testes criada, inserimos alguns dados de teste, como vemos na Listagem 2.

Listagem 2. Inserindo dados na tabela funcionarios_windows_function.

INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (1, 'Edson Dionisio', 'Desenvolvedor Web', 'Desenvolvimento web', 10, 2000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (2, 'Mar�lia K�ssia', 'Scrum Master', 'Desenvolvimento', 10, 6000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (3, 'Caroline França', 'Desenvolvedor Android', 'Mobile', 30, 2500.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (4, 'Gustavo França', 'Desenvolvedor IOS', 'Mobile', 30, 2800.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (5, 'Renato silva', 'Desenvolvedor de Sistemas', 'Desenvolvimento de Sistemas', 10, 2000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (6, 'Jo�o dos testes', 'Analista de Testes', 'Testes', 16, 2000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (7, 'Maria das dores', 'An�lista de Software', 'Engenharia de software', 12, 3000.00);
        INSERT INTO FUNCIONARIOS_WINDOWS_FUNCTION (codigo_func, nome_func, profissao, nome_departamento, departamento_cod, SALARIO) VALUES (8, 'Rodrigo Sampaio', 'Desenvolvedor Windows Phone', 'Mobile', 30, 2600.00);

Com a inserç�o dos registros na tabela de testes utilizaremos o comando SELECT para ver se as informaç�es foram inseridas corretamente:

SELECT * FROM funcionarios_windows_function

Ap�s isso, utilizaremos a mesma consulta, s� que dessa vez adicionando a funç�o cume_dist(), para ver o resultado da operaç�o, conforme a seguinte instruç�o:

select *, cume_dist() OVER (ORDER BY departamento_cod) from FUNCIONARIOS_WINDOWS_FUNCTION;

Ao utilizarmos a cl�usula OVER para o c�digo do departamento, temos que a funç�o cume_dist() ir� atribuir o mesmo valor para os departamentos que tenham o mesmo c�digo, conforme vemos na Figura 1.

Figura 1. Resultado da utilizaç�o da funç�o cume_dist.

Repare que temos a representaç�o visual de um ranking sendo apresentado em ordem crescente, com base no c�digo do departamento.

Funç�o row_number()

Essa funç�o � utilizada para obter o n�mero da linha atual dentro de sua partiç�o, sendo este iniciado com o valor um. Na Listagem 4 temos um exemplo do seu uso.

Listagem 4. Utilizando a funç�o row_number().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      row_number() 
      OVER (PARTITION BY departamento_cod)
       FROM funcionarios_windows_function;

Como resultado da consulta temos que cada um dos registros apresenta o n�mero de fileiras com base no c�digo dos departamentos, mostrando dessa forma a partiç�o entre eles. Podemos ver o resultado da consulta na Figura 2.

Figura 2. Consulta com a funç�o row_number().

A quantidade de partiç�es � apresentada com base na quantidade de registros com o mesmo c�digo do departamento, de forma que os departamentos Mobile e de desenvolvimento possuem tr�s registros sendo apresentados na partiç�o, enquanto que os demais apresentam apenas uma partiç�o.

Funç�o Rank()

A funç�o rank() � utilizada basicamente para obtermos a classificaç�o da linha atual onde, em caso de haver empate, o resultado ser� repetido entre as linhas com mesmo c�digo, como mostra a Listagem 5.

Listagem 5. Utilizando a funç�o rank().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      rank() OVER (
      PARTITION BY departamento_cod ORDER BY nome_departamento)
      FROM funcionarios_windows_function;

Como o resultado da consulta anterior temos os departamentos classificados de acordo com o nome, estando estes separados em partiç�es, como podemos ver na Figura 3.

Figura 3. Utilizando a funç�o rank().

Agora vamos considerar o seguinte caso: ao inv�s de utilizarmos a funç�o para classificarmos os registros com base no c�digo do departamento, vamos fazer a consulta baseada no nome do departamento, como mostra a Listagem 6.

Listagem 6. Consulta com base no nome do departamento.

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      rank() OVER (ORDER BY nome_departamento)
        FROM funcionarios_windows_function;

A nossa consulta muda o resultado, assim a classificaç�o ser� com base no nome do departamento, atribuindo o mesmo valor classificat�rio para os itens repetidos, como podemos ver na Figura 4. Percebam tamb�m que obstru�mos a pesquisa com o PARTITION BY.

Figura 4. Utilizando a funç�o rank() ordenando pelo nome do departamento.

Funç�o dense_rank()

A funç�o dense_rank() tamb�m � utilizada para a obtenç�o da classificaç�o atual dos registros, onde as linhas que apresentam valores iguais para os crit�rios de classificaç�o recebem o mesmo valor, apresentando uma numeraç�o cont�nua. Esta funç�o difere da funç�o rank() em apenas um aspecto: em caso de empate entre duas ou mais linhas, n�o havendo nenhuma lacuna presente na sequ�ncia dos valores classificados. Para demonstrarmos esse exemplo, acompanhe a Listagem 7.

Listagem 7. Utilizaç�o da funç�o dense_rank().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      dense_rank() 
      OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

Veja que temos apenas quatro departamentos sendo apresentados, ent�o teremos a classificaç�o m�xima com o valor 4, como podemos ver na distribuiç�o apresentada na Figura 5.

Figura 5. Distribuiç�o classificat�ria com o dense_rank().

Em caso de utilizarmos a coluna �nome_departamento� na cl�usula OVER, como fizemos anteriormente na Listagem 6, teremos um resultado diferente por conta das diferentes profiss�es cadastradas, como podemos ver na Listagem 8.

Listagem 8. Utilizaç�o da coluna �nome_departamento�.

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      dense_rank() 
      OVER (ORDER BY nome_departamento)
      FROM funcionarios_windows_function;

Como resultado desta nova consulta obtivemos o rank gerado at� a sexta posiç�o, pois temos seis departamentos distintos sendo apresentados, como mostra a Figura 6.

Figura 6. Classificaç�o com base no nome_departamento.

Funç�o percent_rank()

Quando precisamos obter uma classificaç�o relativa das classificaç�es, podemos utilizar a funç�o percent_rank(), que � utilizada para obtermos a classificaç�o relativa da linha atual. Para que tenhamos a posiç�o relativa da linha atual, realizamos o c�lculo com base na seguinte f�rmula:

Posiç�o relativa da linha atual = (rank - 1) / (n�mero total de linhas - 1)

Vejamos agora com base na Listagem 9, um exemplo simples de sua utilizaç�o para uma melhor compreens�o.

Listagem 9. Utilizando a funç�o percent_rank().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      percent_rank() 
      OVER (PARTITION BY departamento_cod ORDER BY profissao)
      FROM funcionarios_windows_function;

Aqui continuamos utilizando a cl�usula PARTITION BY, com relaç�o ao c�digo do departamento, dessa forma teremos que a funç�o percent_rank() ser� com base no mesmo c�digo, o que podemos ver na Figura 7.

Figura 7. Utilizaç�o da funç�o percent_rank().

Percebam que neste caso, para os departamentos com o mesmo c�digo, obtivemos os valores de 0, 0.5 e 1. Enquanto que os demais registros obtiveram o valor 0.

Funç�o first_value()

Esta funç�o � utilizada para a obtenç�o do valor presente na primeira linha da tabela. Para isso passamos o nome da coluna requerida como argumento de entrada, como mostra o exemplo da Listagem 10.

Listagem 10. Utilizando a funç�o first_value().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      first_value(departamento_cod) OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function WHERE departamento_cod > 12;

Com base na Listagem 10, temos a consulta na tabela, onde buscamos os registros que tenham o c�digo de departamento maior que 12, ap�s isso aplicamos a cl�usula Order By pelo c�digo do departamento. Dessa forma, como retorno, teremos uma lista contendo os departamentos com c�digo acima de 12. Como utilizamos a funç�o first_value, obtivemos o primeiro c�digo da tabela e este ser� apresentado como resultado para todas as linhas presentes, como podemos ver na Figura 8.

Figura 8. Windows Function first_value().

Num segundo exemplo, poder�amos utilizar a cl�usula order by para ordenarmos os registros por nome do departamento, onde com isso, obteremos um valor diferente para o valor da funç�o first_value(), como podemos ver presente na Listagem 11.

Listagem 11. Ordenando por nome do departamento.

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      first_value(departamento_cod) OVER (ORDER BY nome_departamento)
      FROM funcionarios_windows_function WHERE departamento_cod > 12;

Funç�o last_value()

Ao contr�rio da funç�o first_value(), a funç�o last_value() � utilizada para a obtenç�o do valor presente na �ltima linha de registro presente na tabela, onde utilizamos o nome da coluna como argumento, de igual forma a funç�o anterior. Podemos ver de acordo com a Listagem 12 como proceder com essa funç�o.

Listagem 12. Utilizando a funç�o last_value().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      last_value(departamento_cod) OVER (ORDER BY nome_departamento)
      FROM funcionarios_windows_function;

Ap�s a consulta, obtivemos o resultado presente na Figura 9, onde o nosso �ltimo registro, com base na ordenaç�o por nome de departamento, � o departamento de testes, que corresponde ao c�digo do departamento 16.

Figura 9. Utilizando a funç�o last_value().

Funç�o nth_value()

A pr�xima funç�o a ser vista � a nth_value(), a qual nos possibilita receber um valor diferente do inicial e do final, obtendo assim um valor presente na en�sima linha da tabela. Para utilizar esta funç�o passamos o nome da coluna desejada e o en�simo n�mero como argumentos de entrada. Caso o valor informado n�o seja encontrado na tabela, o valor apresentado pela funç�o ser� nulo, como mostra a Listagem 13 como proceder.

Listagem 13. Obtendo resultados com a funç�o nth_value().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      nth_value(nome_departamento, 2) 
      OVER (PARTITION BY departamento_cod ORDER BY nome_departamento)
      FROM funcionarios_windows_function;

Veja que estamos utilizando a cl�usula PARTITION BY para dividirmos os registros com base no c�digo do departamento, onde cada partiç�o criada ter� um n�mero de sa�da, que ser� o valor que utilizaremos para a funç�o nth_value. Observe o resultado apresentado na Figura 10.

Figura 10. Utilizando a Windows Function nth_value().

Funç�o ntile()

Esta funç�o nos permite atribuir valores para grupos de resultados, ou seja, um n�mero inteiro a eles. Para melhor entendermos a sua utilizaç�o, vejamos o exemplo presente na Listagem 14.

Listagem 14. Utilizando a Window Function ntile().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      ntile(2) 
      OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

A tabela est� dividida em duas partiç�es pela funç�o ntile(), como mostra o resultado presente na Figura 11.

Figura 11. Resultado da utilizaç�o do ntile().

Neste pr�ximo exemplo da Listagem 15, vejamos como a funç�o ir� se comportar ao utilizarmos o valor 3 como argumento e, com isso, ver o impacto sobre os resultados.

Listagem 15. Utilizando um novo argumento para o ntile().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      ntile(3) 
      OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

Com a mudança do argumento, apenas aumentamos a quantidade de partiç�es que podem ser utilizadas pelo ntile().

Funç�o Lag()

A funç�o lag() � utilizada para acessarmos mais de uma linha presente na tabela ao mesmo tempo, sem a necessidade de utilizarmos o SELF JOIN. Para entendermos essa funcionalidade vejamos o c�digo da Listagem 16 como proceder.

Listagem 16. Utilizando a funç�o lag().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      lag(departamento_cod, 3) 
      OVER (ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

Veja que passamos para a funç�o o c�digo do departamento e como segundo argumento o valor 3. Nessa hora estamos passando um valor para o deslocamento, que no nosso caso � o 3, e isto significa que o cursor vai começar a partir do quarto registro da tabela. Dessa forma, faremos uma SELF JOIN com base no c�digo do departamento e o restante dos registros, como mostra a Figura 12.

Figura 12. Utilizando a funç�o Lag().

Funç�o lead()

A �ltima funç�o a ser apresentada � a lead(), a qual � utilizada para obtermos os valores retornados para linhas de registro com base no deslocamento abaixo da linha atual da partiç�o. Se o argumento de deslocamento n�o � informado no momento de chamarmos a funç�o, ela ser� definida como um, por padr�o. Vejamos como isso ser� executado com base no exemplo apresentado pela Listagem 17. Neste n�s temos a tabela com base no c�digo do departamento e, em seguida, chamamos a funç�o lead().

Listagem 17. Utilizando a Windows Function lead().

SELECT codigo_func, nome_func, profissao, nome_departamento, departamento_cod, salario,
      lead(nome_departamento, 1) 
      OVER (PARTITION BY departamento_cod ORDER BY departamento_cod)
      FROM funcionarios_windows_function;

Podemos ver o resultado da consulta na Figura 13.

Figura 13. Resultado da utilizaç�o da funç�o lead().

Com isso finalizamos o nosso artigo, onde vimos funç�es que nos auxiliam com relaç�o a melhoria de performance e reduç�o de c�digo, no caso de obtermos resultados sem a necessidade realizarmos JOINS entre tabelas. Esperamos que tenham gostado. At� a pr�xima! =)

Link

Documentaç�o
http://www.postgresql.org/docs/9.4/static/tutorial-window.html