Utilizando �ndices na otimiza��o de queries no SQL Server

Criar um �ndice eficiente n�o � uma tarefa simples: requer conhecimento das queries em execu��o e dos diferentes tipos de �ndice dispon�veis. A finalidade desse artigo � explicar como funcionam os �ndices e sua adaptabilidade as queries no universo do SQL Server 2000.

Estrutura interna de um �ndice

�ndices s�o estruturas que possuem algoritmos otimizados para acessar dados. Assim como nas tabelas, p�ginas de �ndices tamb�m ocupam espa�o f�sico. O corpo de um �ndice � formado pelas colunas da tabela cujos dados se deseja classificar seguido de uma refer�ncia conhecida como �ponteiro�, que serve para localizar a chave na p�gina de dados da tabela. Existe tamb�m um tipo de �ndice especial que n�o utiliza ponteiros - conhecidos por cluster - que ser� detalhado adiante.

�ndices no SQL Server 2000 s�o constru�dos sobre estruturas denominadas �rvores balanceadas (=�B-Tree�), cujo desenho lembra o esqueleto de uma pir�mide. A id�ia desse algoritmo � fornecer um modelo de pesquisa que agilize o processo de busca, efetuando um n�mero reduzido de leituras nas p�ginas do �ndice para que se obtenha a localiza��o da chave pesquisada. Quando procuramos por determinada palavra num livro, localizamos a(s) p�gina(s) desejada(s) atrav�s de uma busca em seu �ndice. Se fossemos ensinar algu�m como procurar a palavra �ADMIN� num livro de SQL Server, provavelmente ensinar�amos alguma coisa assim:

Localize o �ndice remissivo no final do livro;
Procure o bloco de palavras que iniciam pela letra �A�;
Efetue uma leitura seq�encial nesse bloco at� localizar a palavra desejada. As p�ginas do livro que cont�m refer�ncias � palavra �ADMIN� encontram-se listadas ao lado da palavra.

A figura 1 ilustra um processo de busca envolvendo a mesma pesquisa acima numa �rvore B-Tree de um �ndice n�o-cluster. O processo tem in�cio numa p�gina-mestre conhecida como �root page�, procurando pela maior chave da p�gina cujo valor � menor ou igual � palavra pesquisada. Em nosso exemplo, a primeira palavra cujo c�digo alfab�tico � menor ou igual � �ADMIN� � �ACESSO�, portanto seguiremos nessa dire��o at� a p�gina de n�mero 2, localizada num n�vel intermedi�rio conhecido por �non leaf level�. A busca � finalizada no n�vel folha ou �leaf level page�, onde encontramos a refer�ncia para a p�gina de dados onde se localiza a palavra.

Tipos de �ndice existentes no SQL Server 2000

Existem dois tipos b�sicos de �ndice: cluster e n�o-cluster. �ndices cluster imp�em uma organiza��o na pr�pria p�gina de dados da tabela, fazendo com que permane�am classificadas de acordo com a composi��o de sua chave. Se voc� executar o comando select * from NorthWind.dbo.Orders ir� notar que os pedidos s�o ordenados pela coluna OrderId, que faz parte do �ndice cluster PK_Orders. Podemos ent�o afirmar que o leaf level de um �ndice cluster representa a pr�pria p�gina de dados da tabela, descartando a utiliza��o de ponteiros para p�gina de dados. J� �ndices n�o-cluster possuem estrutura pr�pria, mantendo-se vinculados �s p�ginas de dados pela utiliza��o de ponteiros.

A tabela de sistema SysIndexes � respons�vel pelo armazenamento dos metadados do �ndice. Nessa tabela localizamos o nome do �ndice, uma indica��o de seu tipo (cluster/n�o cluster), o n�mero de p�ginas utilizadas, o n�mero de altera��es desde que o �ltimo c�lculo de estat�sticas foi executado etc. Tabelas sem �ndice cluster - conhecidas por heaps - possuem uma linha em SysIndexes para IndId=0. Cada �ndice n�o cluster possuir� uma entrada para IndId no intervalo 2..250. Se uma tabela possuir �ndice cluster, este ser� identificado por IndId=1. Tabelas com �ndice cluster N�O possuem entrada para IndId=0. Portanto, se voc� quiser listar as tabelas que n�o possuem �ndice cluster em seu database, basta selecionar as entradas em SysIndexes para IndId=0.

**Figura 1.** Exemplo de busca na �rvore B-Tree.

Aloca��o e gerenciamento de espa�o para �ndices e tabelas no SQL Server 2000

P�ginas de dados de tabelas com �ndice cluster s�o �ligadas� umas �s outras, isto �, no cabe�alho de cada p�gina s�o encontradas refer�ncias � p�gina anterior e posterior (=Next/Previous Page in Chain). Para um processo efetuar leitura seq�encial numa tabela com �ndice cluster � conhecida por clustered index scan � precisar� apenas localizar a p�gina inicial em SysIndexes.Root; as p�ginas seguintes estar�o encadeadas.

J� em heaps o processo � diferente pelo fato das p�ginas de dados n�o possu�rem ordena��o. Pode-se iniciar um lote de inser��es numa p�gina localizada �no meio da tabela�, utilizando espa�o gerado por uma s�rie de dele��es e terminar o processo �no fim da tabela�, alocando-se uma nova extent[1]. � como se voc� estivesse escrevendo um texto num caderno e, ap�s virar a p�gina corrente, se deparasse com uma p�gina totalmente preenchida. O que voc� faria? Provavelmente sairia folheando o caderno a procura de uma p�gina em branco � ou com espa�o suficiente � para dar continuidade. Em heaps o processo � um pouco diferente, porque as p�ginas N�O s�o ligadas umas �s outras. Para varrer as p�ginas pertencentes a uma heap, o SQL Server utiliza p�ginas especiais � denominadas p�ginas IAM � que controlam as p�ginas utilizadas por uma tabela. Portanto, num processo de leitura de uma heap o SQL Server 2000 se norteia pelas p�ginas IAM.

At� a vers�o 6.5 do SQL Server, o controle de p�ginas em heaps era efetuado da mesma maneira que tabelas clusterizadas. Assim, inicialmente as p�ginas pertencentes a heap estavam ligadas e sequencialmente pr�ximas: a p�gina 10 estava ligada �s paginas 09 e 11, e assim por diante. � medida que o tempo passava e aconteciam muitas inclus�es e um sem-n�mero de dele��es, come�avam a surgir v�rios espa�os, que eram detectados e aproveitados em inclus�es futuras. Nesse contexto, as p�ginas que estavam perfeitamente organizadas no in�cio, passavam a apresentar alta fragmenta��o: a p�gina 10 agora estava ligada �s p�ginas 5322 e 99878. Assim, uma varredura nessa tabela tomando-se por base a liga��o entre p�ginas causaria um excessivo I/O. Decidiu-se ent�o, a partir da vers�o 7.0 do SQL Server, pela utiliza��o das p�ginas IAM: quando o banco precisa ler uma heap, recorre �s p�ginas IAM para obter uma lista das extents que devem ser lidas, reduzindo bastante o custo de I/O envolvido na opera��o.

As principais diferen�as entre um �ndice cluster e outro n�o-cluster podem ser visualizadas na tabela 1.

INDICE CLUSTER	INDICE N�O-CLUSTER
O leaf level da �rvore B-Tree � a pr�pria p�gina de dados da tabela, ou seja: n�o existe a figura do �ponteiro�, respons�vel por ligar a linha do �ndice com a linha da p�gina de dados da tabela.	As linhas do leaf level da �rvore B-Tree possuem ponteiros para as p�ginas de dados. Em heaps, esse ponteiro � representado pelo RowID (=Id do FileGroup + Id da P�gina + Id da Linha). Em tabelas clusterizadas, o ponteiro do �ndice n�o cluster � a pr�pria chave do �ndice cluster. Vide nota 2 sobre para maiores esclarecimentos.
Pode-se criar somente um �ndice cluster por tabela.	Pode-se criar at� 249 �ndices n�o-cluster por tabela.
A p�gina inicial da �rvore B-Tree encontra-se na coluna Root na tabela SysIndexes para IndId=1.	A p�gina inicial da �rvore B-Tree encontra-se na coluna Root na tabela SysIndexes para IndId no intervalo 2..250.
Indicado para pesquisas por range; as p�ginas de dados apresentam-se ordenadas e fisicamente pr�ximas, sendo bastante eficiente em processos de leitura seq�enciais.	Indicado para pesquisas pontuais (=que retornam poucas linhas). Pesquisas por range apresentam alto custo de I/O em fun��o do processo de busca da p�gina de dados a partir do ponteiro do �ndice (processo conhecido por �bookmark lookup�).

Tabela 1. Quadro comparativo: principais diferen�as entre �ndices cluster e n�o-cluster.

O termo clustered index scan � utilizado para especificar varreduras seq�enciais nas p�ginas de dados de uma tabela que possui �ndice cluster. Nesse caso, a p�gina inicial da tabela encontra-se em SysIndexes para IndId=1. J� table scan � utilizado para especificar varreduras seq�enciais nas p�ginas de dados de heaps. Nesse caso, a p�gina inicial da tabela encontra-se em SysIndexes.FirstIam para IndId=0.

�ndices n�o-cluster precisam de ponteiros para �ligar� a linha do �ndice com a correspondente linha da p�gina de dados da tabela. Se a tabela possui �ndice cluster, a pr�pria chave do �ndice cluster ser� escolhida como ponteiro do �ndice n�o-cluster. Se a tabela N�O possui �ndice cluster, o ponteiro do �ndice n�o-cluster ser� representado pelo RowID (=Id do FileGroup + Id da P�gina + Id da Linha).

Mas por que essa diferen�a? Quando ocorre um page-split, metade das linhas da p�gina objeto do comando insert s�o transferidas para uma nova p�gina. Se o ponteiro do �ndice n�o-cluster fosse baseado na informa��o do RowID, esse �ndice teria que ser reprocessado para as linhas que foram realocadas. Fazendo com que o ponteiro do �ndice n�o-cluster seja a pr�pria chave do �ndice cluster, evita-se o reprocessamento do ponteiro para as linhas que foram movidas, pois a chave do �ndice cluster n�o � alterada com a mudan�a de p�gina. Nos resta agora uma d�vida:

Fazer com que o ponteiro do �ndice n�o-cluster seja a chave do �ndice cluster n�o causa um overhead nas leituras dos �ndices n�o-cluster, gerando dois processos de busca nas �rvores B-TREE (a primeira para localizar o ponteiro e a segunda para localizar a p�gina de dados)?

Sim, existe um pequeno overhead - mas o custo-benef�cio compensa. Quem teve a oportunidade de trabalhar com SQL Server 6.5 sabe o quanto os page-splits impactavam em performance nas atualiza��es. Como um page-split altera o RowID das linhas realocadas, todos os �ndices n�o-cluster tinham de ser reprocessados para atualiza��o do novo RowID. Essa opera��o em ambientes de produ��o gerava um impacto bastante negativo. Ao trocar o RowID pela chave do �ndice cluster, eliminou-se por completo esse problema.

Cria��o de um �ndice passo a passo

Para criar um �ndice na tabela Orders do banco de dados NorthWind no Enterprise Manager, expanda o banco de dados selecionando a op��o Tables. Clique com o bot�o direito sobre a tabela Orders, selecione Design Table e na barra de ferramentas clique em Manage Indexes/Keys para que a tela apresentada na figura 2 obtenha o foco principal. As op��es dispon�veis na tela de manuten��o de �ndices s�o detalhadas a seguir:

Table Name: nome da tabela onde se deseja criar o �ndice.
Type: selecione New para criar um novo �ndice ou Delete para excluir um �ndice existente. Os tipos poss�veis s�o: Index ou Primary Key.
Index Name: nome do �ndice.
Column Name� Order: colunas que comp�e a chave do �ndice. Para cada uma delas a coluna Order informa se a ordena��o � ascendente (default) ou descendente.
Index Filegroup: indica��o do filegroup para cria��o do �ndice. Se voc� n�o possui discos RAID[2], uma boa op��o para ganho de performance � criar tabelas e �ndices em filegroups diferentes, localizados em dispositivos distintos. Por exemplo, crie as tabelas no drive D e os �ndices no drive E.
Create Unique: Unique quer dizer �nico, que n�o permite duplicidades. Costumo utilizar essa op��o apenas para constraints. Explicarei o porqu�: uma constraint unique � utilizada para evitar a duplicidade da(s) coluna(s) a ela associada. �ndices s�o fundamentalmente utilizados para otimizar a performance de queries. Por exemplo, se tenho uma regra de acesso que n�o permite duplicidades na numera��o de uma nota, implemento uma constraint unique e n�o um �ndice unique.

Agora um detalhe interessante: o que aconteceria se voc� efetuasse um update abrangendo 100 linhas da tabela Orders e esse update gerasse viola��o de chave em 30 casos? A resposta �: DEPENDE. Se Ignore Duplicate Keys � op��o dispon�vel apenas para �ndices � estiver ativo, 70 updates ser�o efetivados. Se Ignore Duplicate Keys n�o for ativado, o rollback se encarregar� de desfazer todos os 100 updates.
Fill Factor: indica o percentual de preenchimento das p�ginas do �ndice no momento de sua cria��o. Um fator de preenchimento de 80% informa que ser� utilizado somente 80% da capacidade da p�gina para ocupa��o das linhas do �ndice, deixando 20% de espa�o livre. Mas por que deixar p�ginas parcialmente preenchidas? Isso n�o acarretaria um aumento do custo de I/O? Certamente sim. O que tem que ser levado em conta � a fragmenta��o das p�ginas do �ndice decorrente de modifica��es. O fill factor ideal de um �ndice ser� aquele que causar menor fragmenta��o para um determinado per�odo de an�lise. No �ndice Orders.CustomerId talvez fosse interessante criar p�ginas com algum espa�o livre para diminuir o volume de page-splits[3], pois os pedidos da tabela Orders s�o inseridos com clientes aleat�rios.

J� no �ndice Orders.OrderDate, fill factor degradaria performance, j� que os pedidos s�o inseridos em ordem crescente de data, n�o causando fragmenta��o. Lembre-se que fragmenta��o de p�ginas s� acontece quando precisamos inserir linhas em p�ginas totalmente preenchidas, for�ando uma divis�o de p�gina para acomodar a nova linha. O fill factor atua somente no momento da cria��o ou reestrutura��o do �ndice, n�o sendo mantido durante os processos posteriores de atualiza��o do �ndice. Vale a pena destacar tamb�m que:
1. O valor default para fill factor � zero (vis�vel no Query Analyzer sob o comando sp_configure �fill factor�). Parece um contra-senso, mas zero � o mesmo que 100%, ou seja: o SQL Server 2000 utilizar� 100% de suas p�ginas na cria��o do �ndice. Note que voc� n�o pode especificar zero como op��o de Fill Factor na cria��o de um �ndice; zero � utilizado somente como configura��o padr�o.
2. Fill factor � uma op��o avan�ada de otimiza��o, portanto deve ser utilizada somente naqueles �ndices onde se observou excessiva fragmenta��o. Utilizar essa op��o de uma maneira gen�rica para todos os �ndices do database n�o � uma boa pr�tica.
Uma quest�o: seria interessante criar um �ndice com fill factor numa tabela zerada? Acredito que n�o. Fill factor foi criado para minimizar o efeito de page-splits; o fato de um �ndice apresentar um n�mero maior ou menor de quebras de p�gina ir� depender da composi��o do �ndice e do volume de atualiza��es. Quando estabelecemos �de cara� um percentual para o fill factor sem monitorar o crescimento da tabela com o comando DBCC ShowContig, podemos incorrer em dois erros: 1) superestimar o volume de quebras de p�ginas causando uma fragmenta��o desnecess�ria; 2) subestimar o volume de quebras e a tabela continuar com n�mero excessivo de page-splits.
Pad Index: fill factor atua somente no leaf level do �ndice. Assinalando essa op��o, o percentual definido em fill factor ser� propagado para os n�veis intermedi�rios da �rvore B-Tree. N�o existe uma regra clara sinalizando o momento adequado para se utilizar essa op��o, mesmo porque n�o existem indicadores de fragmenta��o nos n�veis intermedi�rios do �ndice.

A fragmenta��o nos n�veis intermedi�rios ocorre numa escala menor que no n�vel folha, pois nos n�veis intermedi�rios trabalha-se com ranges de chaves. As p�ginas intermedi�rias s�o criadas automaticamente com uma folga para duas ou tr�s linhas, possibilitando um pequeno, mas �til espa�o para inser��es. Pad Index pode ser utilizado como �ltimo recurso de otimiza��o, no momento em que voc� chegou no �ndice de fill factor que julga ideal para a tabela analisada.
Create as Clustered: indica que o �ndice criado ser� do tipo cluster. Lembre-se que s� � poss�vel criar um �ndice cluster por tabela.
Do not automatically recompute statistics: as estat�sticas de distribui��o de dados pela chave do �ndice s�o essenciais para o otimizador avaliar uma query e, por default, s�o atualizadas automaticamente ap�s um determinado n�mero de modifica��es no �ndice (veja a mat�ria �Estat�sticas de Distribui��o de Dados no SQL Server�, na edi��o anterior). Ligando essa op��o voc� dever� atualizar manualmente essas estat�sticas com o comando update statistics, mas n�o recomendo essa op��o.

Conforme apresentado na edi��o 3 em �Otimiza��o e Tuning Parte II�, o objetivo com rela��o � utiliza��o de fill factor � manter a performance do sistema em n�veis aceit�veis at� a chegada da pr�xima rotina de reindexa��o. Considerando-se um processo semanal de reestrutura��o de �ndices, pode-se dizer que o fill factor de determinado �ndice est� adequado � medida que os indicadores do comando DBCC SHOWCONTIG Scan Density e Avg. Page Density (full) se mant�m pr�ximos de 100%. Quanto mais distantes de 100%, maior a necessidade de utiliza��o do fill factor para controle dos custosos page-splits. Portanto se voc� encontrar �ndices de scan density muito inferiores a 80%, experimente estabelecer um pequeno fill factor e reavalie a fragmenta��o ap�s o mesmo per�odo. Comece, por exemplo, com um �ndice de 95% para fill factor e v� diminuindo at� encontrar seu ponto �timo.

**Figura 2.** Tela para cria��o de �ndices no Enterprise Manager.

A sintaxe do comando T-SQL para a cria��o de �ndices pode ser vista na listagem 1.


CREATE [ UNIQUE ] [ CLUSTERED | NONCLUSTERED ] INDEX index_name
    ON { table | view } ( column [ ASC | DESC ] [ ,...n ] )
[ WITH < index_option > [ ,...n] ]
[ ON filegroup ]

< index_option > :: =
    { PAD_INDEX |
        FILLFACTOR = fillfactor |
        IGNORE_DUP_KEY |
        DROP_EXISTING |
    STATISTICS_NORECOMPUTE |
    SORT_IN_TEMPDB 
}

A linha de comando sugere algumas configura��es adicionais, que n�o aparecem na tela do Enterprise Manager visto anteriormente na figura 2. S�o elas:

DROP_EXISTING: Se droparmos o �ndice cluster numa tabela que possui tamb�m �ndices n�o-cluster, todos os �ndices n�o-cluster ser�o reconstru�dos, pois o ponteiro desses �ndices para a p�gina de dados passar� a ser o RowID. Se criarmos depois o �ndice cluster, todos os �ndices n�o-cluster ser�o novamente reconstru�dos, pois o ponteiro desses �ndices dever� ser modificado para a chave do �ndice cluster. Nos casos em que temos que efetuar uma altera��o na composi��o da chave de um �ndice cluster e, para evitar que os �ndices n�o-cluster sejam reconstru�dos duas vezes (uma quando dropamos e outra quando criamos novamente o �ndice cluster), utilizamos a cl�usula DROP EXISTING para que o rebuild nos �ndices seja efetuado SOMENTE UMA VEZ. Uma observa��o: a cl�usula DROP_EXISTING � aplic�vel somente sobre �ndices. Se sua primary-key tamb�m � um �ndice cluster, esse comando n�o poder� ser utilizado. Por exemplo, para alterar o �ndice-cluster ix_ind_cluster (col_A) para ix_ind_cluster (col_A,col_B) na tabela de nome tab_x, utilize:
```
Create clustered index ix_ind_cluster(col_A,col_B) on tab_x with Drop_Existing
```

Nota: Voc� s� pode executar um create index sobre um �ndice j� existente se utilizar a cl�usula DROP_EXISTING, caso contr�rio acontecer� um erro.

STATISTICS_NORECOMPUTE: desabilita a atualiza��o autom�tica das estat�sticas do �ndice, informando ao SQL Server 2000 que as estat�sticas do �ndice ser�o atualizadas por processo manual (via comando update statistics). Estat�sticas desatualizadas acarretam na escolha de planos de execu��o ineficientes, portanto sugiro n�o utilizar essa op��o.
SORT_IN_TEMPB: se voc� possui o TempDB localizado num conjunto de discos separados do filegroup do banco de dados, utilize essa op��o para ganho de performance na reconstru��o do �ndice. No processo de rebuild, s�o utilizadas �reas tempor�rias de armazenamento. Se o TempDB estiver numa �rea separada, estaremos viabilizando processos de leitura e escrita num conjunto diferente de discos, melhorando assim a performance na reconstru��o.

Estudo de caso: an�lise de performance do �ndice

Imagine a seguinte situa��o: voc� acabou de concluir um relat�rio que demonstra a produtividade dos vendedores na tiragem de pedidos da empresa NorthWind.Com. Esse relat�rio sumariza os pedidos existentes na tabela Orders para um determinado vendedor. Ap�s conclus�o do relat�rio, voc� verifica no plano de execu��o que o �ndice existente EmployeeId (ou mesmo EmployeeIdOrders, os dois s�o iguais...) n�o est� sendo utilizado na sele��o de pedidos de um vendedor e voc� decide investigar o porqu�. O select executado na figura 3 comprova que o �ndice EmployeeId n�o est� sendo selecionado, pois foi utilizado um clustered index scan em PK_Orders.

**Figura 3.** Plano de execu��o confirmando a n�o utiliza��o do �ndice EmployeeId na tabela Orders.

Como um h�vido leitor da SQL Magazine, voc� n�o hesita em ir at� sua biblioteca e sacar a edi��o 8 para colocar toda aquela gama de conceitos sobre estat�sticas � prova. Voc� decide ent�o analisar as estat�sticas do �ndice pelo comando DBCC SHOW_STATISTICS, para verificar o histograma relacionado � coluna EmployeeId, vide listagem 2.


 
dbcc show_statistics(orders,employeeid)

 

-----------------------------------------------------------------------------------------------------------------------------------------------------

 

Statistics for INDEX 'employeeid'.

Updated                       Rows    Rows Sampled    Steps    Density        Average key length      

-------------------------   --------   -------------------   -------   -------------   ------------------------

Jul 25 2003  5:53PM   830        830                     9           0.0               8.0

 

All density                  Average Length        Columns

------------------------   ------------------------   ------------------------------

0.11111111                4.0                             EmployeeID

1.2048193E-3             8.0                            EmployeeID, OrderID

 

RANGE_HI_KEY  RANGE_ROWS     EQ_ROWS   DISTINCT_RANGE_ROWS   AVG_RANGE_ROWS          

----------------------   ---------------------    ---------------   -----------------------------------   -----------------------------

1                                                     0.0                                               123.0                  0                                                                           0.0

2                                                     0.0                                                 96.0                  0                                                                           0.0

3                                                     0.0                                               127.0                  0                                                                           0.0

4                                                     0.0                                               156.0                  0                                                                           0.0

5                                                     0.0                                                 42.0                  0                                                                           0.0

6                                                     0.0                                                 67.0                  0                                                                           0.0

7                                                     0.0                                                 72.0                  0                                                                           0.0

8                                                     0.0                                               104.0                  0                                                                           0.0

9                                                     0.0                                                 43.0                  0                                                                           0.0

 

DBCC execution completed. If DBCC printed error messages, contact your system administrator.

Listagem 2. Estat�tiscas para a coluna EmployeeId.

Com base nas estat�sticas, constatamos que:

A medida de seletividade da coluna EmployeeId na tabela Orders nos informa que, dos 830 pedidos existentes, 43 (5% do total) foram realizados para o vendedor de c�digo igual a 9;
A densidade para EmployeeId informa que cada empregado possui uma m�dia de 92 pedidos na tabela Orders(830 * .111111).

Conclus�o:

O �ndice n�o foi utilizado devido � baixa seletividade da coluna EmployeeId. O benef�cio da pesquisa na �rvore do �ndice � minimizado pelo processo de bookmark lookup, pois o aster�sco presente no comando select for�a a ida at� a p�gina de dados para resgate do restante das colunas. O custo da pesquisa com utiliza��o do �ndice � maior que o processo de clustered index scan realizado na tabela, podendo ser comprovado no quadro abaixo. Repare que ao for�ar a escolha do �ndice o n�mero de logical reads pulou de 21 para 131!

Covered Indexes: uma alternativa para �ndices n�o-cluster com seletividade baixa

Uma query possui cobertura de um �ndice quando todas as colunas listadas no comando select est�o presentes no corpo do �ndice, n�o havendo necessidade de acesso �s p�ginas de dados para resgate de colunas adicionais. �ndices pouco seletivos, quando criados com o objetivo de efetuar cobertura de queries tornam-se uma alternativa muito interessante para o otimizador, pois eliminam por completo processos de bookmark lookup, considerados o �calcanhar de Aquiles� de �ndices n�o-cluster.

Voltemos agora para o exemplo anterior, onde s�o selecionados todos os pedidos para o vendedor de c�digo igual a 9. Na verdade n�o precisamos de toda informa��o contida na linha do pedido, mas somente do n�mero efetivo de pedidos para esse vendedor. Queremos saber quantos pedidos foram emitidos para o vendedor de c�digo 9. Substituamos ent�o o comando select * from Orders where EmployeeId=9 pelo comando select count(*) from Orders where EmployeeId=9 e analisemos o plano de execu��o na figura 4.

Confirme a mudan�a no plano de execu��o, onde o Clustered Index Scan em PK_Orders da figura 3 foi substitu�do pelo Index Seek em EmployeesOrders na figura 4. O comando count(*) com o filtro para EmployeeId=9 viabiliza a query com cobertura integral do �ndice EmployeeOrders.

Utilizando a fun��o CheckSum na otimiza��o de �ndices — **Figura 4**

A fun��o CheckSum pode ser utilizada para criar chaves hash [4] em oposi��o a �ndices criados sob colunas char ou varchar. A vantagem de trabalhar com �ndices hash � a redu��o no tamanho da chave do �ndice: voc� pode substituir, por exemplo, aquele �ndice criado sobre uma coluna com data-type varchar(100) por um valor num�rico (100 bytes x 4 bytes). Diminuindo o tamanho da chave estaremos aumentando a densidade de linhas por p�gina de �ndice, induzindo melhorias de performance.

�ndices hash n�o podem ser utilizados em compara��es envolvendo os operadores >, >=, <, <= ou <>. Esse tipo de �ndice se presta somente para pesquisas igualit�rias.

A implementa��o dessa id�ia envolve dois passos: primeiramente devemos criar uma coluna calculada, utilizando a fun��o CheckSum para gera��o autom�tica do c�digo hash. Por �ltimo deveremos criar um �ndice sobre essa coluna. A listagem 3 ilustra passo a passo a cria��o do �ndice hash sobre a coluna CompanyName, na tabela Customers.

Listagem 3. Cria��o de �ndice hash.


/* Criar a coluna calculada com a fun��o CheckSum */

ALTER TABLE Customers

ADD cs_CompanyName AS CheckSum(CompanyName)

 

/* Criar o �ndice sobre essa coluna */

CREATE INDEX ix_cs_CompanyName on Customers (cs_CompanyName)

 

/* Executar um comando select */

SELECT *

FROM Customers

WHERE cs_CompanyName=checksum(N'The Cracker Box')

AND CompanyName = 'The Cracker Box'

 

------------------------------------------------------------------------------------------------------------------------------------------

 

CustomerID CompanyName                              . . . .

---------- ----------------------------------------

THECR      The Cracker Box                           . . . . .

Perceba que:

No select da listagem 3 existe uma redund�ncia na compara��o com o nome do cliente, que � referenciado na linha da fun��o CheckSum �... where cs_CompanyName=checksum(N'The Cracker Box')� e na compara��o �.. AND CompanyName = 'The Cracker Box' � �. Esse procedimento � necess�rio j� que existe uma pequena (mas n�o descartada) possibilidade dessa fun��o gerar o mesmo c�digo hash para inputs distintos, conforme pr�pria indica��o da Microsoft. Para evitar resultados indesejados, trabalha-se com a segunda confirma��o.
�ndices hash n�o podem ser utilizados em pesquisas que utilizem compara��es n�o equalit�rias entre strings. Por exemplo, o �ndice hash n�o seria utilizado em ...where CompanyName like (�The Craker%�) .

Dicas, Truques e algo mais para construir e manter �ndices eficientes

Quanto mais compacto o tamanho da chave do �ndice, melhor. � medida que aumentamos o n�mero de linhas na p�gina do �ndice estaremos otimizando processos de leitura. Considere a substitui��o de PK�s compostas por colunas identity. Crie ent�o uma constraint unique para a chave composta, para garantia da integridade do neg�cio.
Criar um �ndice composto ou v�rios �ndices? O otimizador pode trabalhar com intersec��o de �ndices, cruzando informa��es de dois �ndices existentes para resolver uma query. Se voc� est� na d�vida entre criar um �ndice composto (indice_x: coluna_A+coluna_B) ou dois �ndices separados (indice_x: coluna_A e �ndice_y: coluna_B), responda para si mesmo: as queries executadas nessa tabela fornecem sempre as duas colunas ou existem casos onde somente a coluna_B aparece como filtro? Se suas queries utilizam as duas colunas (A e B) ou eventualmente a coluna_A, crie um �ndice composto. Caso contr�rio, crie dois �ndices.
Processos de Scan (Clustered Index Scan ou Table Scan) em tabelas com grande n�mero de linhas representam gargalos de execu��o. Atente para esse detalhe quando estiver analisando o plano de execu��o de suas queries.
Procure criar sempre um �ndice cluster em suas tabelas. Rotinas de reindexa��o n�o corrigem fragmenta��o em heaps. Para desfragmentar uma heap, seria necess�rio copiar seus dados para uma tabela tempor�ria, truncar a tabela original e recopiar os dados da tabela tempor�ria para a tabela principal. Para desfragmentar tabelas com �ndices cluster, basta reindex�-la com DBCC DBReindex ou desfragment�-la com DBCC IndexDefrag.
Bases OLTP s�o respons�veis por um grande volume de acessos pontuais. Nesses casos, procure criar PK�s clusterizadas e curtas, de prefer�ncia desprovidas de qualquer significado. Por exemplo, uma nota fiscal � identificada por seu n�mero, s�rie e emitente. Ao inv�s de criar uma PK baseada nessas colunas, opte por uma coluna identity para PK e uma constraint unique para a regra de neg�cio estabelecida pela chave (n�mero, s�rie e emitente).
Em bases destinadas a consultas, reserve o �ndice cluster para colunas que s�o acessadas por range - no caso da nota fiscal, a data de emiss�o seria uma boa pedida para um relat�rio de notas fiscais emitidas por data.
Se sua base de dados � utilizada tanto para opera��es on-line como para consultas diversas, use o bom senso: se for interessante privilegiar os processos on-line, opte por clusterizar as PK�s. Se for interessante privilegiar os relat�rios, reserve o �ndice cluster para aquelas colunas que s�o pesquisadas com cl�usulas between, order by etc.
N�o crie �ndices em colunas com baixa seletividade. Colunas com alto grau de duplicidades n�o s�o uma boa escolha para �ndices n�o-cluster em fun��o do alto custo dos processos de bookmark lookup. Como regra geral para queries sem cobertura de �ndices pode-se considerar o seguinte:

Percentual de linhas retornadas na query	Seletividade	Utiliza��o do �ndice
< 5%	Alta	O �ndice ser� utilizado
entre 5% e 10%	M�dia	O �ndice possui menor chance de utiliza��o
> 10%	Baixa	� bem prov�vel que o �ndice n�o seja utilizado

N�o crie �ndices em tabelas com pequeno n�mero de linhas. Tabelas que ocupam um pequeno n�mero de p�ginas normalmente n�o utilizam �ndices para agilizar suas leituras. Uma tabela com 100 linhas n�o precisaria, portanto, de outros �ndices al�m daquele j� fornecido pela primary-key.
Mantenha as estat�sticas atualizadas. Mantenha as op��es Auto-Create/Update Statistics ligadas.
Crie rotinas de reindexa��o peri�dicas. Rotinas de reindexa��o s�o fundamentais para garantia de performance. N�o se esque�a delas.
Utilize o Profiler como ferramenta de apoio no rastreamento de queries com longo tempo de execu��o. Aproveite a oportunidade para criar �ndices mais eficientes ou mesmo dropar �ndices in�teis.
Utilize o Index Tuning Wizard como ferramenta de apoio para tuning de �ndices.
Ao criar �ndices compostos, mantenha a coluna mais seletiva no primeiro n�vel da chave. Como as estat�sticas s�o criadas para o primeiro elemento de �ndices compostos, mantendo a coluna mais seletiva no primeiro plano estaremos agilizando o trabalho do otimizador para escolha desse �ndice.
D� prefer�ncia por �ndices baseados em colunas num�ricas em oposi��o a colunas char ou varchar. �ndices baseados em colunas num�ricas s�o mais eficientes.
N�o crie �ndices em duplicidade. Um erro bastante comum � criar �ndice com a mesma estrutura de outros j� existentes. Habitue-se a executar um sp_HelpIndex para confirma��o dos �ndices existentes.

Conclus�o

�ndices devem ser criados para agilizar a performance do sistema como um todo, mas freq�entemente nos esquecemos disso. Subavaliamos o impacto da cria��o do �ndice na performance geral do sistema, e aquilo que foi concebido com o objetivo inicial de ganho de performance resulta em mais um ponto de conten��o.

Otimizar um processo pode significar eliminar um �ndice ineficiente, implementar novos filtros ou alterar os par�metros da cl�usula join das queries em execu��o. Devemos sim considerar a cria��o de �ndices como recurso de otimiza��o, mas numa an�lise conjunta com todos esses fatores.

Leitura Adicional � Entendendo como funciona a organiza��o f�sica de um database

Quando criamos um database o SQL Server 2000 faz uma pr�-aloca��o de espa�o, segmentando o database em p�ginas de 8kb, numeradas seq�encialmente. Cada conjunto de oito p�ginas cont�guas formam uma unidade l�gica maior denominada extent, que � a unidade b�sica de crescimento dos objetos no banco. Uma tabela nasce numa extent mista e cresce em extents uniformes, por quest�es de otimiza��o de espa�o. O SQL Server 2000 possui um processo especial para gerenciar espa�o, respons�vel por marcar as extents que j� foram utilizadas. Assim, quando uma tabela � criada, o SQL Server faz uma consulta nas p�ginas que controlam extents mistas para obter um endere�o de extent com espa�o dispon�vel. Da mesma maneira, quando essa tabela precisar se expandir ser� efetuada uma busca nas p�ginas que controlam extents uniformes para obter o endere�o de uma extent livre. Trocando essa pequena hist�ria por algumas siglas, estamos falando de p�ginas GAM (Global Allocation Map) e SGAM (Shared Global Allocation Map). P�ginas GAM controlam a aloca��o de extents uniformes e SGAM de extents mistas. Essas p�ginas s�o criadas no momento da �demarca��o� do database, que acontece na sua cria��o ou no momento de expans�o.

Num database, a terceira p�gina ser� sempre ocupada por uma p�gina GAM e a quarta por uma SGAM, respons�veis por gerenciar as pr�ximas 64.000 extents. A p�gina GAM utiliza um bit para informar se a pr�xima extent est� livre ou n�o; como existem 8.000 bytes livres numa p�gina, e cada byte controla 8 extents seq�enciais, chegamos no resultado de 64.000 extents controladas por uma p�gina GAM.

Portanto, o dueto de p�ginas GAM/SGAM controla at� 4GB de dados (64.000 * 64KB) (64 kb � o tamanho de uma extent). Se voc� criar um database com tamanho de 5GB, ser�o encontradas 2 p�ginas GAM: a primeira ser� a p�gina de n�mero 3 e a segunda vir� ap�s aproximadamente 64.000 * 8 = 512.000 p�ginas (na verdade esse n�mero � 511.232, pois s�o descontados 97 bytes de cada p�gina para controle interno). O mesmo crit�rio vale para as p�ginas SGAM, ocupando as posi��es de n�mero 4 e 511.233.

Al�m de administrar extents com p�ginas GAM/SGAM, existe um controle adicional, informando se a p�gina est� ou n�o alocada e seu percentual de utiliza��o. Esse controle � exercido por p�ginas com o anacr�nimo PFS, de Page Free Space. Cada p�gina PFS controla 8.088 p�ginas cont�guas num database. A primeira p�gina PFS � a p�gina de n�mero 1, logo ap�s a header do database, representada pela p�gina 0. Na figura abaixo pode-se visualizar o mapeamento de um database:

Pag	Pag	Pag	Pag		Pag		Pag		Pag	Pag
0	1	2	3	.. .. . .	8088	.. .. ..	16176	.. .. .	511232	511233	.. .. ..
Header do Database	PFS	GAM	SGAM		PFS		PFS		GAM	SGAM

Pag

8088

16176

511232

511233

Header do Database

PFS

GAM

SGAM

PFS

GAM

SGAM

Existe ainda um controle utilizado para gerenciar as extents utilizadas por heaps e �ndices, fornecido pelas p�ginas IAM (Index Allocation Map). Uma p�gina IAM controla at� 512.000 p�ginas de uma tabela. Diferentemente das p�ginas GAM, SGAM e PFS que s�o demarcadas na cria��o e/ou altera��o de tamanho do database, p�ginas IAM s�o alocadas randomicamente (= �on demand�) � medida que a tabela (ou �ndice) cresce. Se a primeira p�gina de uma tabela � a p�gina de n�mero 120.000, isso n�o significa que as pr�ximas 512.000 p�ginas ser�o ocupadas por essa mesma tabela; nesse intervalo podem ser encontradas p�ginas pertencentes a in�meras tabelas e v�rias p�ginas IAM.

As p�ginas IAM s�o utilizadas em conjunto com as p�ginas PFS para orientar o banco nas inclus�es. Assim, quando ocorre um insert numa heap e a p�gina atual j� se encontra totalmente preenchida, � efetuada uma busca conjunta nas p�ginas IAM e PFS para determinar uma p�gina j� pertencente a essa tabela para acomodar a inser��o. Se n�o encontrar espa�o nas p�ginas PFS, ser� efetuada uma requisi��o na p�gina GAM para uma nova extent. Tabelas com �ndice cluster n�o se orientam com base nas p�ginas IAM, pois as inser��es n�o s�o baseadas na teoria de �onde existe espa�o� mas sim na chave do �ndice cluster.

[1] Uma extent � um conjunto cont�guo de oito p�ginas.
[2] RAID (Redundant Arry of Inexpensive Disks) � um sub-sistema de discos r�gidos configurado para fornecer toler�ncia a falhas.
[3] Page-Split � o nome do processo que ocorre quando uma p�gina totalmente preenchida � dividida em duas para acomodar uma inser��o. page-splits foram amplamente discutidos na edi��o 3 na mat�ria Otimiza��o e Tuning Parte II.
[4] Uma chave hash � utilizada como uma boa op��o de performance na constru��o de um �ndice, sendo utilizado na substitui��o de longas chaves alfanum�ricas por um �nico n�mero inteiro, gerado � partir de fun��es matem�ticas.