Artigo SQL Magazine 1 - Otimização de Comandos SQL

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Mesmo um aplicativo bem projetado poder� experimentar problemas de desempenho se a frase SQL que usa for mal constru�da. Falhas no projeto do aplicativo e na constru��o do SQL causam a maioria dos problemas de desempenho em bancos de dados projetados adequadamente. Veremos neste artigo como melhorar o comando SQL, para garantir maior performance em sua execu��o, tendo como base o ORACLE.

A forma como o banco de dados se organiza para responder a requisi��o de um aplicativo � diretamente influenciada pela maneira como a frase SQL � constru�da. Existem v�rios pontos a serem observados nesta constru��o. O caminho mais curto � o uso de �ndices para auxiliar a pesquisa, mas � importante observar, a simples cria��o de um �ndice nem sempre � o melhor caminho para otimiza��o de comandos SQL.

Alguns conceitos importantes

Antes de partir para como e quais as melhores formas de se aplicar e se escrever comandos SQL � importante relembrarmos alguns conceitos importantes.

Existem dois m�todos b�sicos utilizados pelos SGDB�s para localizar dados, tamb�m conhecidos como caminhos de acesso. S�o eles:

Full Table Scan: Leitura sequencial, bloco por bloco, de toda a tabela. Neste m�todo, s�o verificados registro a registro os crit�rios de sele��o.
Index Search: Procura de um �ndice sobre a coluna definida no crit�rio de sele��o, identificando a localiza��o dos registros qualificados.

O ORACLE possui seu pr�prio mecanismo de otimiza��o, chamado otimizador, para executar comandos SQL e dinamicamente determinar que caminho de acesso seguir, dependendo das informa��es dispon�veis. O melhor caminho de acesso �, geralmente, o uso de �ndices, mas isso nem sempre � verdadeiro. Por exemplo, se existir uma forma de identificar diretamente um registro pelo seu endere�o f�sico, a resposta ser� mais r�pida. (neste caso estamos falando do rowid, endere�o f�sico do registro em uma tabela ORACLE).

Ex.:

SELECT rowid INTO :emp_rowid FROM EMP
 WHERE emp.empno = 5353 FOR UPDATE OF emp.ename;
  
 UPDATE emp SET emp.ename = "OTIMIZADOR"
 WHERE rowid = :emp_rowid;

Excluindo registros duplicados:

DELETE FROM emp e 
 WHERE e.rowid > (SELECT MIN(x.rowid) FROM emp x
 WHERE x.empno = e.empno);

Algumas informa��es para auxiliar o acesso do otimizador:

Verificar nas colunas dentro da cl�usula WHERE:

Que colunas s�o �ndices;
Que colunas est�o definidas como NOT NULL;
Que �ndices podem ser usados.

� poss�vel ajudar o otimizador a procurar o melhor caminho de acesso atrav�s da cria��o de �ndices e clusters, o que ser� considerado a partir de agora.

Regras de Utiliza��o de �ndices

Um �ndice ser� usado se :

o �ndice existir;
a coluna �ndice for referenciada na cl�usula WHERE;

Um �ndice pode ser usado para testes de:

Igualdade:

SELECT e.empno, e.ename FROM emp e
 WHERE e.job = �CLERK�;

Intervalo ilimitado:

SELECT e.empno, e.ename FROM emp e
 WHERE e.job > �CLERK�;

Intervalo limitado:

SELECT e.empno, e.ename FROM emp e
 WHERE e.job BETWEEN �CLERK� AND �JONES�;

A cria��o de �ndices deve ser feita com crit�rio. A atualiza��o (inserts, updates e deletes) em tabelas de dados gera uma a��o equivalente nos �ndices, sendo que o tempo de atualiza��o dos �ndices � superior ao de atualiza��o das tabelas, pois al�m da coloca��o do registro em sequ�ncia dentro do �ndice � necess�rio a atualiza��o dos ramos das �rvores do �ndice.

Considerando os detalhes acima, �ndices devem ser criados somente quando necess�rio, pois a sua simples exist�ncia n�o implica em melhoria de performance, podendo muitas vezes ser a origem de perda de performance.

Condi��es de n�o utiliza��o de �ndices

1) Fun��es ou Operadores Aritm�ticos

Se a coluna �ndice for modificada por uma fun��o ou por operadores aritm�ticos (+,-,*,/), o �ndice n�o ser� utilizado.

Um �ndice sobre SAL ou ENAME n�o ser� utilizado nos seguintes casos:

SELECT e.ename, e.empno FROM emp e
 WHERE e.sal*12 = 2400;
  
 SELECT e.ename, e.empno FROM emp e
 WHERE SUBSTR(e.ename,1,3) = �JON�

Nos casos acima, as seguintes modifica��es permitem o uso de �ndice:

SELECT e.ename, e.empno FROM emp e
 WHERE e.sal = 2400/12
  
 SELECT e.ename, e.empno FROM emp e
 WHERE e.ename LIKE �JON%�

2) Convers�o de Dados

A convers�o de dados pode inibir a utiliza��o do �ndice da coluna em quest�o se usado inadvertidamente.

Na seguinte senten�a, um �ndice sobre a coluna HIREDATE n�o ser� usado:

SELECT e.ename, e.empno FROM emp e
 WHERE TO_CHAR(e.hiredate, �month dd,yyyy�) = �january 23,1982�

Esta mesma senten�a SQL, modificada, usar� o �ndice como segue:

SELECT e.ename, e.empno FROM emp e
 WHERE e.hiredate = to_date(�january 23,1982� , �mounth dd,yyyy�)

Se na cl�usula WHERE os predicativos utilizam dados de tipos diferentes, o ORACLE automaticamente converte um deles sem a preocupa��o sobre a melhor escolha para a utiliza��o dos �ndices. A convers�o por default � escolhida, pelo caso mais comum (Ex.: O valor de uma coluna, onde o tipo � number, rowid ou date, comparado com uma constante de tipo char).

Em qualquer caso � muito recomendado o controle da convers�o dos dados de maneira expl�cita.

3) Caso de colunas com valores NULL

Os �ndices n�o cont�m refer�ncia para valores do tipo null. Isto quer dizer que os valores null podem ser recuperados somente atrav�s de uma leitura sequencial completa da tabela (Full Table Scan).

No comando abaixo o �ndice sobre a coluna COMM n�o ser� utilizado:

SELECT e.ename, e.empno FROM emp e
 WHERE e.comm is null

Neste c�digo o otimizador considera que a maioria dos registros dentro da tabela s�o valores not null e ir� escolher a leitura sequencial (Full Table Scan):

SELECT e.ename, empno FROM emp e
 WHERE e.comm > = 100

A velocidade de execu��o depender� dos dados da tabela. Se a maioria dos registros contiver valores n�o nulos, a cl�usula "comm is not null" ser� mais r�pida.

Os �ndices concatenados n�o ter�o refer�ncia para os registros onde todas as colunas que o comp�em tiverem valores nulos.

4) Caso de predicados com a condi��o "NOT EQUAL"

Os �ndices sobre colunas referenciadas pela condi��o not equal n�o ser�o usadas. O otimizador considera que o n�mero de registros que ir�o satisfazer a condi��o ser� maior do que os registros que n�o a satisfazem.

O �ndice sobre DEPTNO n�o ser� usado na seguinte senten�a SQL:

SELECT e.ename, e.empno FROM emp e
 WHERE e.deptno !=10

No comando abaixo, o �ndice sobre deptno ser� utilizado:

SELECT e.ename, e.empno FROM emp e
 WHERE not e.deptno > 20

O ORACLE executar� a senten�a SQL como e.deptno <= 20

5) Casos de senten�as SQL com cl�usula "ORDER BY"

A cl�usula ORDER BY aumenta consideravelmente a necessidade de recursos para execu��o de uma senten�a SQL. Em geral, tabelas tempor�rias ser�o necess�rias para opera��o de sort.

� poss�vel evitar a utiliza��o de tabelas tempor�rias se um �ndice sobre a coluna alvo do order by existir. As seguintes condi��es devem ser cumpridas:

A coluna order by deve ser definida com not null;
A coluna order by deve ser uma simples coluna �ndice ou as primeiras colunas de �ndice concatenado;
A cl�usula order by deve conter somente colunas e n�o express�es;
N�o deve haver qualquer cl�usula group by, distinct ou for update;
N�o deve haver nenhum outro acesso alternativo que seja priorit�rio sobre o �ndice da coluna order by;

A seguinte senten�a SQL ser� executada via �ndice em DNAME se os requisitos mencionados acima forem respeitados:

SELECT d.dname FROM dept d order by d.dname;
  
 SELECT d.dname, d.deptno FROM dept d
 WHERE d.loc = �dallas� order by      d.dname;
  
 SELECT d.dname, d.loc FROM dept d
 WHERE d.dname != �accouting� order by d.dname;

Na senten�a abaixo, se um �ndice sobre a coluna LOC existir, tornar-se-� priorit�rio e o �ndice sobre dname n�o ser� usado:

SELECT d.dname, d.deptno FROM dept d
 WHERE d.loc = �dallas� order by      d.dname;

6) Casos de senten�as SQL contendo fun��es MAX ou `MIN

Um �ndice ser� usado para executar uma senten�a SQL com MAX ou MIN se as seguintes condi��es forem satisfeitas:

MAX ou MIN devem ser apenas express�es da lista de sele��o;
A lista de sele��o n�o deve ter qualquer outro operador de concatena��o ou adi��o a n�o ser somente MAX ou MIN;
A lista de sele��o n�o deve conter qualquer outra coluna a n�o ser uma simples ocorr�ncia da coluna como agrupamento de MAX ou MIN;
A senten�a SQL n�o pode ser um JOIN;
A cl�usula WHERE e group by n�o podem ser utilizadas;
A coluna alvo do MAX ou MAX deve ser indexada ou fazer parte das primeiras colunas de um �ndice concatenado.

A seguinte senten�a SQL utilizar� um �ndice sobre a coluna SAL:

SELECT (max(e.sal)*2) + 10000 FROM emp e;

7) Senten�as SQL recuperam informa��es sobre uma simples tabela

Uma senten�a SQL pode ter v�rios �ndices �nicos e/ou n�o �nicos � disposi��o do otimizador. A escolha do �ndice a ser usado depende da presen�a de:

�ndices �nicos e n�o �nicos: os �ndices �nicos ser�o favorecidos sobre os �ndices n�o �nicos.
V�rios �ndices n�o �nicos : os registros identificados pelo caminho de acesso do �ndice condutor (o primeiro nome na senten�a SQL) ser�o unidos com aquele identificado por outro �ndice. A meta � identificar os registros pertencentes a todos os �ndices.

Se o otimizador n�o tiver clara escolha concernente a qual �ndice usar, ent�o ir� arbitrariamente escolher o primeiro mencionado dentro da senten�a SQL como �ndice condutor (Driving Index).

8) Caso de senten�a SQL com interse��o de v�rios predicados de igualdade dentro da cl�usula WHERE com �ndice n�o �nico.

O �ndice n�o �nico ser� sorteado pela coluna rowid a fim de minimizar o n�mero de compara��es necess�rias.

Se n�s temos �ndice n�o �nico sobre JOB e DEPTNO:

SELECT e.ename FROM emp e
 WHERE e.job = �manager� and e.deptno = 20;

a. Procura a primeira ou pr�xima refer�ncia do �ndice sobre job (driving index) contendo �manager�.

b. Procura a primeira ou a pr�xima refer�ncia do �ndice deptno contendo valor 20.

Compara as duas rowid:

Se as duas forem iguais, registro encontrado. Vai a pr�xima refer�ncia de "a." e compara com a pr�xima refer�ncia de "b.".
Se forem diferentes guarda a refer�ncia de "a." e passa a pr�xima refer�ncia de "b.".

c. Continua a procura at� que n�o existam mais refer�ncias sobre o �ndice de job (driving index).

9) Caso de senten�a SQL com interse��o de um predicado de igualdade com um predicado sem limite, dentro da cl�usula WHERE com �ndice n�o �nico.

Somente o �ndice sobre a igualdade ser� usado. No exemplo que segue, se �ndices n�o �nicos existirem sobre as colunas JOB e DEPTNO, o �ndice sobre JOB ser� utilizado, os registros correspondentes ser�o recuperados e verificada a validade do segundo predicado.

SELECT e.ename FROM emp e
 WHERE e.job = �manager� and e.deptno > 10

10) Caso de �ndice Concatenado

�ndices concatenados s�o �ndices formados por v�rias colunas representados como se fosse simplesmente uma �nica coluna.

a) Interse��o de v�rios predicados de igualdade.

Se um �ndice concatenado existir sobre DEPTNO e JOB, somente uma refer�ncia ser� necess�ria para localizar a rowid correspondente:

SELECT e.ename FROM emp e
 WHERE e.job = �manager� and e.deptno = 10

b) Interse��o de predicados sem limite com predicados de igualdade.

Se um �ndice concatenado existir sobre DEPTNO e JOB, ser� utilizado para executar a seguinte senten�a SQL :

SELECT e.ename FROM emp e
 WHERE e.job = �manager� and e.deptno > 10

c) Interse��o de predicado sem limite.

Se um �ndice concatenado existir sobre DEPTNO e JOB, ser� utilizado para executar a seguinte senten�a SQL:

SELECT e.ename FROM emp e
 WHERE e.job > �manager� and e.deptno > 10

d) Utiliza��o parcial ou total dos �ndices concatenados.

O otimizador pode somente usar a(s) primeira(s) parte(s) do �ndice concatenado.

No seguinte caso, um �ndice concatenado foi criado sobre as colunas EMPNO, ENAME e DEPTNO:

A seguinte senten�a SQL usa plenamente o �ndice concatenado:

SELECT * FROM emp e
 WHERE e.empno = 7369
 and e.ename = �smith� and e.depnto = 20
  
 SELECT * FROM emp e 
 WHERE e.ename = �smith�
 and e.empno = 7369
 and e.deptno = 20

As seguintes senten�as SQL utilizam parcialmente o �ndice concatenado:

Uso parcial do �ndice usando somente EMPNO e ENAME:

SELECT * FROM emp e
 WHERE e.empno = 7369 and e.ename = �smith�

Uso parcial do �ndice usando somente EMPNO e ENAME :

SELECT*FROM emp e
 WHERE e.empno = 7369 and e.deptno = 20

As seguintes senten�as SQL n�o usam o �ndice :

SELECT * FROM emp e
 WHERE e.ename = �smith� and e.deptno = 20
 SELECT * FROM emp e WHERE e.ename = �smith�
 SELECT * FROM emp e WHERE e.deptno = 20

11) Casos de �ndice �nico e n�o �nico na mesma senten�a SQL.

O otimizador favorecer� a utiliza��o do �ndice �nico.

No seguinte caso o �ndice n�o �nico existe em SAL e um �ndice �nico em EMPNO:

SELECT e.ename FROM emp e
 WHERE e.sal = 3000 and e.empno = 7902

O �ndice �nico ser� usado para procurar a rowid correspondente ao empno = 7902.

Nos registros recuperados ser�o verificados o valor de sal.

12) Caso de v�rios �ndices na mesma senten�a SQL.

Se v�rios �ndices �nicos est�o dispon�veis, o otimizador ir� escolher o primeiro mencionado na senten�a SQL. Por exemplo, se �ndices �nicos existirem sobre ENAME e EMPNO, e um �ndice n�o �nico existir sobre SAL, a seguinte senten�a SQL ser� executada sobre o �ndice ENAME

SELECT e.deptno FROM emp e
 WHERE e.sal = 3000
 and e.ename = �scott� and e.empno = 7602

Otimiza��o da cl�usula OR (Uni�o de predicados)

O caminho de acesso � determinado como se a cl�usula OR e suas ramifica��es estivessem ausentes. O caminho � determinado considerando cada ramifica��o da cl�usula OR separadamente.

Exemplo A

�ndice existente sobre SAL e JOB.

SELECT e.ename FROM emp e
 WHERE e.deptno = 10
 and (e.sal = 3000 or e.job = �clerk�)

An�lise:

Para DEPTNO = 10 - Pesquisa sequencial na tabela;
Para SAL = 3000 - �ndice n�o �nico sobre SAL;

Para JOB = �clerk� - �ndice n�o �nico sobre JOB;

Neste caso, o caminho de acesso identificado por "2" � melhor que o identificado por "1", ent�o a cl�usula OR � otimizada para utiliza��o dos �ndices.

Exemplo B

Somente �ndice sobre SAL utilizando a mesma senten�a do exemplo A.

An�lise:

Para DEPTNO = 10 - Pesquisa sequencial na tabela
Para SAL = 3000 - �ndice n�o �nico sobre SAL

Para JOB = �clerk� - Pesquisa sequencial na tabela

Os dois caminhos de acesso identificado por "2" n�o s�o melhores que o identificado por "1", ent�o os �ndices n�o ser�o utilizados e ocorrer� uma pesquisa sequencial na tabela. O otimizador na Cl�usula OR exige a presen�a dos �ndices utiliz�veis dentro de cada coluna referenciada dentro da cl�usula OR.

Verificando o �Caminho de Acesso� do otimizador

Podemos verificar o caminho de acesso utilizado pelo SGDB para executar uma determinada frase SQL. Chamaremos esse caminho de �Acesso de Plano de Execu��o�. No plano de execu��o s�o verificados todos os procedimentos feitos pelo SGDB, como utiliza��o ou n�o de �ndices, clusters, rowid, al�m da verifica��o da quantidade de passos realizados pelo banco para execu��o do comando. Este procedimento � muito �til, pois pode ser utilizado como recurso para verificarmos se as altera��es efetuadas em um comando realmente otimizam a execu��o do mesmo. A verifica��o do plano de execu��o � feita no Oracle atrav�s do comando EXPLAIN PLAN. A sintaxe do comando � a seguinte:

EXPLAIN PLAN 
 SET STATEMENT_ID = 'COMAND_ID' 
 INTO OUTPUT
 FOR COMANDOSQL;

Onde:

COMAND_ID � um String identificador para posterior visualiza��o do plano de execu��o.
OUTPUT � tabela onde o plano de execu��o � gerado. O usu�rio que executar o EXPLAIN PLAN deve ter direitos de INSERT sobre a mesma. O comando para cria��o desta tabela � o seguinte:

O Script para cria��o desta tabela chama-se �UTLXPLAN.SQL� e � instalado juntamente com oracle e a sua localiza��o depende da vers�o do banco.

COMANDOSQL � o comando a ser analisado.

Para verifica��o do plano de execu��o gerado pelo EXPLAIN PLAN devemos consultar a tabela informada no comando. Este procedimento pode ser efetuado de v�rias maneiras, uma delas � a que segue:

SELECT SUBSTR(LPAD(' ',2*(LEVEL-1))||operation,1,50) operation, options, 
 object_name, position 
     FROM OUTPUT
     START WITH id = 0 AND statement_id = 'COMAND_ID'
     CONNECT BY PRIOR id = parent_id AND 
     statement_id = 'COMAND_ID';

Onde,

COMAND_ID � um String identificador do plano de execu��o informado no EXPLAIN PLAN
OUTPUT � tabela onde o plano de execu��o � gerado.

Vamos exemplificar a execu��o do EXPLAIN PLAIN validando a seguinte informa��o:

�Um �ndice � utilizado se ele existir e se a coluna que faz parte deste �ndice estiver contida na clausula WHERE do comando SQL. Este mesmo �ndice n�o � utilizado se existirem fun��es de convers�o de dados envolvendo esta coluna.�

Em outras palavras: a execu��o do comando �SELECT * FROM EMP WHERE EMPNO = 50� utilizar� o �ndice da chave prim�ria, que cont�m a coluna EMPNO, e a execu��o do comando �SELECT * FROM EMP WHERE TO_CHAR(EMPNO) = �50��, n�o utilizar� o �ndice.

Utilizaremos o comando do quadro em destaque acima para cria��o da tabela que receber� o plano de execu��o, com o nome de PLAN_TABLE. Em seguida executaremos o EXPLAIN PLAN para verifica��o da utiliza��o do �ndice com o seguinte comando:

EXPLAIN PLAN
     SET STATEMENT_ID = 'SQLMagazine Com Indice'
     INTO PLAN_TABLE
     FOR 
     SELECT * FROM EMP WHERE EMPNO = 50;

A verifica��o do plano de execu��o � feita de seguinte forma:

SELECT SUBSTR(LPAD(' ',2*(LEVEL-1))||operation,1,50) operation, options, 
 object_name, position 
     FROM PLAN_TABLE
     START WITH id = 0 AND statement_id = 'SQLMagazine Com Indice'
     CONNECT BY PRIOR id = parent_id AND 
     statement_id = 'SQLMagazine Com Indice';

O resultado com o plano de execu��o � o seguinte:

Analisando este resultado comprovamos que o �ndice referente a chave prim�ria foi utilizado. Vamos verificar agora o mesmo comando alterado:

EXPLAIN PLAN
     SET STATEMENT_ID = 'SQLMagazine Sem Indice'
     INTO PLAN_TABLE
     FOR 
     SELECT * FROM EMP WHERE TO_CHAR(EMPNO) = �50�;

A verifica��o do plano de execu��o � feita de seguinte forma:

SELECT SUBSTR(LPAD(' ',2*(LEVEL-1))||operation,1,50) operation, options, 
 object_name, position 
     FROM PLAN_TABLE
     START WITH id = 0 AND statement_id = 'SQLMagazine Sem Indice'
     CONNECT BY PRIOR id = parent_id AND 
     statement_id = 'SQLMagazine Sem Indice';

Este resultado mostra que a utiliza��o do �ndice foi anulada pela fun��o aplicada a coluna.

Conclus�o

Os cuidados a serem tomados com o acesso a dados da aplica��o s�o parte importante de um projeto. A forma como as consultas s�o escritas e como o banco de dados est� projetado influencia diretamente na performance do produto. Esses fatores n�o devem andar separados. Na maioria dos casos � necess�ria a perfeita integra��o entre a consulta escrita e o estado do banco de dados. Muitas vezes uma simples �arruma��o� na consulta, trocando algumas cl�usulas ou mudando um pouco a �l�gica� das condicionais, garante um ganho na velocidade de execu��o e resposta da mesma. N�o esque�a nunca de analisar se o �ndice a ser criado � realmente necess�rio, para n�o adicionar um mais um processo para o seu banco. Boa sorte e bons projetos!