10 dicas para classificar, agrupar e sumarizar dados em SQL

Figura 1: 10 dicas para classificar, agrupar e sumarizar dados em SQL

Organizar dados de maneira significativa pode ser um desafio. �s vezes, tudo o que voc� precisa � de uma simples ordena��o. Muitas vezes, voc� precisa de mais - voc� precisa de grupos que voc� pode analisar e resumir. Felizmente, a SQL oferece uma s�rie de cl�usulas e operadores para classifica��o, agrupamento e resumo de dados. As dicas a seguir ir�o ajud�-lo a discernir quando a classificar, quando agrupar, e quando e como resumir.

1. Ordenar com um tipo

Frequentemente, todos os seus dados precisam de ordem. A cl�usula SQL �ORDER BY� organiza os dados em ordem alfab�tica ou num�rica. Consequentemente, os valores semelhantes classificam-se juntos no que parece ser mais um grupo. No entanto, os grupos aparentes s�o um resultado de uma ordena��o, n�o s�o verdadeiros grupos. ORDER BY exibe cada registro, enquanto que um grupo pode representar v�rios registros.

2. Reduzir valores semelhantes em um grupo

A maior diferen�a entre a classifica��o e agrupamento � esta: dados classificados exibem todos os registros (dentro dos limites de qualquer crit�rio de limita��o) e dados agrupados, n�o. A cl�usula GROUP BY reduz valores semelhantes em um �nico registro. Por exemplo, uma cl�usula GROUP BY pode retornar uma lista �nica de c�digos postais de uma fonte que repete os valores:

Listagem 1: Exemplo de agrupamento


SELECT CEP
FROM Clientes
GROUP BY CEP

Inclua apenas as colunas que definem o grupo tanto no GROUP BY quanto no SELECT das listas de colunas. Em outras palavras, a lista resultante de SELECT deve coincidir com a lista do GROUP BY, com uma exce��o: A lista do SELECT pode incluir fun��es de agrega��o (GROUP BY n�o permite fun��es agregadas.).

Tenha em mente que GROUP BY n�o ir� classificar os grupos resultantes. Para organizar os grupos em ordem alfab�tica ou num�rica, adicione uma cl�usula ORDER BY (# 1). Al�m disso, voc� n�o pode se referir a um campo, ali�s na cl�usula GROUP BY. Colunas do grupo devem estar nos dados subjacentes, mas eles n�o devem aparecer nos resultados.

3. Limitar os dados antes de serem agrupados

Voc� pode limitar os dados dos grupos GROUP BY, adicionando uma cl�usula WHERE. Por exemplo, a instru��o a seguir retorna uma lista �nica de c�digos postais para os clientes apenas em S�o Paulo:

Listagem 2: Filtrando antes de agrupar


SELECT CEP
FROM Clientes
WHERE Estado = 'SP'
GROUP BY ZIP

� importante lembrar que os filtros de dados do WHERE antes da cl�usula GROUP BY s�o quem avaliam os dados.

Como GROUP BY, WHERE n�o suporta fun��es de agrega��o.

4. Retornar todos os grupos

Quando voc� usa WHERE para filtrar dados, os grupos resultantes exibem apenas os registros que voc� especificar. Os dados que se encaixam na defini��o do grupo, mas n�o atendem �s condi��es da cl�usula n�o far�o parte do grupo. Inclua ALL quando voc� quiser incluir todos os dados, independentemente da condi��o WHERE. Por exemplo, a adi��o de ALL para a instru��o anterior retorna todos os grupos CEP, n�o apenas aqueles em S�o Paulo:

Listagem 3: Adi��o da instru��o ALL


SELECT CEP
FROM Clientes
WHERE Estado = 'SP'
GROUP BY ALL CEP

Neste caso, as duas cl�usulas est�o em conflito e voc� provavelmente n�o iria usar ALL neste caminho. ALL vem a calhar quando voc� usa um agregado para avaliar uma coluna. Por exemplo, a seguinte instru��o conta o n�mero de clientes em cada c�digo postal de S�o Paulo, ao mesmo tempo, exibindo valores postais dos outros:

Listagem 4: Contando registros


SELECT CEP, Count(CEP) AS ContClientesPorCEP
FROM Clientes
WHERE Estado = 'SP'
GROUP BY ALL CEP

Os grupos resultantes compreendem todos os valores postais nos dados subjacentes. No entanto, a coluna agregada (ContClientesPorCEP) iria mostrar 0 para qualquer grupo que n�o seja um c�digo postal de S�o Paulo v�lido.

Consultas remotas n�o suportam GROUP BY ALL.

5. Limitar os dados depois de agrupados

A cl�usula WHERE (# 3) avalia os dados antes de a cl�usula GROUP BY o fazer. Quando voc� quiser limitar os dados depois que agrupados, use HAVING. Muitas vezes, o resultado ser� o mesmo se voc� usar WHERE ou HAVING, mas � importante lembrar que as cl�usulas n�o s�o intercambi�veis. Aqui est� uma boa orienta��o a seguir quando voc� estiver em d�vida: use WHERE para filtrar os registros, use HAVING para filtrar grupos.

Normalmente, voc� vai usar HAVING para avaliar um grupo usando um agregado. Por exemplo, a instru��o a seguir retorna uma lista �nica de c�digos postais, mas a lista pode n�o incluir todos os CEPs na fonte de dados subjacente:

Listagem 5: Utilizando a cl�usula HAVING


SELECT CEP, Count(CEP) AS ClientesPorCEP
FROM Clientes
GROUP BY CEP
HAVING Count(CEP) = 1

Apenas os grupos com apenas um cliente sair�o no resultado.

3. Dar uma boa olhada no WHERE e HAVING

Se voc� ainda est� confuso sobre onde e quando usar HAVING, aplique as seguintes diretrizes:

WHERE vem antes de GROUP BY; SQL avalia a cl�usula WHERE antes de seus grupos de registros.
HAVING vem depois de GROUP BY; SQL avalia o HAVING ap�s seus grupos de registros.

7. Resumir valores agrupados com agregados

O agrupamento de dados pode ajudar a analisar os dados, mas �s vezes voc� vai precisar de um pouco mais informa��es do que apenas os pr�prios grupos. Voc� pode adicionar uma fun��o de agrega��o para resumir dados agrupados. Por exemplo, a declara��o a seguir exibe um subtotal para cada ordem:

Listagem 6: Usando fun��es de agrega��o


SELECT IDVenda, Sum(Custo * Quantidade) AS TotalVendido
FROM ItensVendidos
GROUP BY IDVenda

Tal como acontece com qualquer outro grupo, as listas dos SELECT e GROUP BY devem corresponder umas �s outras. Incluir um agregado na cl�usula SELECT � a �nica exce��o a esta regra.

8. Resumir o conjunto

Voc� ainda pode resumir os dados exibindo um subtotal para cada grupo. O operador SQL �ROLLUP� exibe um registro extra, um subtotal, para cada grupo. Esse registro � o resultado da avalia��o de todos os registros dentro de cada grupo usando uma fun��o agregada. A declara��o a seguir totaliza a coluna OrderTotal para cada grupo:

Listagem 7: Usando o operador ROLLUP


SELECT Cliente, NumeroVenda, Sum(Custo * Quantidade) AS TotalVendido
FROM ItensVendidos
GROUP BY Clientes, NumeroVenda
WITH ROLLUP

A linha ROLLUP para um grupo com dois valores TotalVendido de 20 e 25 teriam de apresentar um TotalVendido = 45. O primeiro registro em um resultado ROLLUP � �nico porque ele avalia todos os registros do grupo. Esse valor � um total geral para todo o conjunto de registros.

ROLLUP n�o suporta DISTINCT em fun��es agregadas ou a cl�usula GROUP BY ALL.

9. Resumir cada coluna

O operador CUBE vai um passo al�m do que ROLLUP, retornando totais para cada valor em cada grupo. Os resultados s�o semelhantes aos ROLLUP, mas CUBE inclui um registo adicional para cada coluna no grupo. A declara��o a seguir exibe um subtotal para cada grupo e um total adicional para cada cliente:

Listagem 8: Utilizando o operador CUBE


SELECT Clientes, NumeroVenda, Sum(Custo * Quantidade) AS TotalVendido
FROM ItensVendidos
GROUP BY Clientes, NumeroVenda
WITH CUBE

CUBE d� o resumo mais abrangente. Ele n�o s� faz o trabalho de ambos os agregados e ROLLUP, mas tamb�m avalia as outras colunas que definem o grupo. Em outras palavras, CUBE resume todas as combina��es poss�veis de coluna.

CUBE n�o suporta GROUP BY ALL.

10. Traga a ordena��o para os resumos

Quando os resultados de um CUBE s�o confusos (e geralmente s�o), adicione a fun��o de agrupamento da seguinte forma:

Listagem 9: Fun��o de agrupamento junto com CUBE


SELECT GROUPING(Customer), OrderNumber, Sum(Cost * Quantity) AS OrderTotal
 FROM Orders
 GROUP BY Customer, OrderNumber
 WITH CUBE

Os resultados incluem dois valores adicionais para cada linha:

O valor 1 indica que o valor para a esquerda � um valor resumo - o resultado do operador ROLLUP ou CUBE.
O valor 0 indica que o valor para a esquerda � um registro de detalhe produzido pela cl�usula GROUP BY original.

Seguindo essas dicas, deve-se obter melhores resultados, em termos de organiza��o e desempenho, no agrupamento e sumariza��o de dados em instru��es SQL.