Entendendo e usando �ndices no SQL

Veremos nesse artigo por que criar e como criar, como manter, qual a sua import�ncia, melhores pr�ticas, como funciona a �famosa� �rvore bin�ria, �ndices clusterizados e n�o-clusterizados. Enfim, abordaremos tudo o que for importante saber para trabalhar bem essa feature b�sica e muito relevante nos bancos de dados objeto-relacionais.

Guia do artigo:

Como o SQL Server armazena e acessa dados
Como os dados s�o localizados
Por que criar �ndices
Por que n�o criar �ndices
Arquitetura de �ndice
CLUSTERED
NONCLUSTERED
Um pouco de pr�tica
Como o SQL Server recupera os dados armazenados
Consultando informa��es na tabela sysindexes
Localizando registros sem �ndices
Localizando registros sem agrupamento/n�o-clusterizados em uma pilha
Localizando registros em um �ndice de agrupamento
Localizando registros em um �ndice de agrupamento com �ndice sem agrupamento

Vale salientar, que os sources SQL / T-SQL aqui apresentados foram escritos e testados em ambiente Windows XP Professional, rodando SQL Server 2000 com Service Pack 4 instalado, usando o m�dulo Query Analyser.

Como o SQL Server armazena e acessa dados

O uso de �ndices pode trazer grandes melhorias para o desempenho do banco de dados. Pensando nisso, devemos ent�o, primeiramente, entender como funciona o mecanismo que est� trabalhando nos bastidores.

Os registros s�o armazenados em p�ginas de dados, p�ginas estas que comp�em o que chamamos de pilha, que por sua vez � uma cole��o de p�ginas de dados que cont�m os registros de uma tabela. Cada p�gina de dados tem seu tamanho definido em at� 8 Kb, apresenta um cabe�alho, tamb�m conhecido como header, que cont�m arquivos de links com outras p�ginas e identificadores (hash) que ocupam a nona parte do seu tamanho total (8 Kb) e o resto de sua �rea � destinada aos dados. Quando s�o formados grupos de oito p�ginas (64 Kb), chamamos este conjunto de extens�o, como mostra a Figura 1.

Os registros de dados n�o s�o armazenados em uma ordem espec�fica, e n�o existe uma ordena��o sequente para as p�ginas de dados. As p�ginas de dados n�o est�o vinculadas a uma lista, pois implementam diretamente o conceito de pilhas. Quando s�o inseridos registros em uma p�gina de dados e ela se encontra quase cheia, as p�ginas de dados s�o divididas em um link � estabelecido para marca��es e liga��es entre elas.

Como os dados s�o localizados

Dentro da Arquitetura de �ndices do SQL Server, (assunto que detalharemos mais � frente) existem dois m�todos para acesso a dados:

Exame de tabela, que examina todas as p�ginas de dados das tabelas, come�ando do in�cio da tabela passando por todos os registros, p�gina a p�gina e extraindo aqueles que satisfazem aos crit�rios da consulta.
Usando �ndices, percorrendo a estrutura da �rvore do �ndice para localizar os registros, por compara��o, extraindo somente aqueles registros necess�rios para satisfazerem os crit�rios passados pela consulta.
Antes de tomar qualquer das decis�es que foram apresentadas, o otimizador de consultas, componente respons�vel pela an�lise do melhor plano de execu��o da consulta, determina qual m�todo ser� mais eficiente para recuperar os dados.

Mas a pergunta que surge rapidamente �, �Por que devo criar �ndices?�.

Por que criar �ndices

Os �ndices aceleram a recupera��o dos dados. Por exemplo, imagine que voc� compre um livro de 800 p�ginas para suas pesquisas acad�micas e este n�o apresente em seu conte�do um �ndice reportando o seu conte�do. Uma pesquisa talvez n�o fosse t�o pavorosa, mas se voc� precisar de v�rias pesquisas, seria muito desagrad�vel ficar horas procurando o conte�do que deseja estudar. Por outro lado, um livro que apresente um �ndice de suas abordagens, se faz muito mais f�cil e torna as pesquisas at� prazerosas, pois teremos condi��o de irmos direto ao ponto que queremos.

�ndices s�o sempre bem vindos em colunas de grande seletividade, como por exemplo, al�m da chave prim�ria, que muitas vezes pode circular como identificador �nico da entidade na sua aplica��o, voc� pode ter tamb�m um �ndice para colunas que poder�o lhe auxiliar em consultas em que estas contar�o com a cl�usula WHERE, precisando ou n�o usar os operadores AND, OR ou *NOT, que muitas vezes, em casos espec�ficos, alteram a performance da consulta.

*O operador NOT sempre deixar� sua consulta mais lenta que o normal.

Um bom exemplo da cria��o necess�ria de �ndices, s�o aplica��es banc�rias que atendem � caixas eletr�nicos. Sempre que solicitamos uma determinada transa��o ou mesmo informa��o, tal solicita��o tende a ser cada vez mais rapidamente atendida. E quantos correntistas geralmente t�m os grandes bancos? Ser� que quanto mais correntistas, mais lenta ser� a consulta?

Se n�o os �ndices, uma pesquisa pelo seu saldo demoraria quase o tempo de um almo�o para retornar seu saldo ou mesmo, retornar uma resposta a sua solicita��o de saque. Uma vez tendo ci�ncia do funcionamento dos �ndices, respeitando a sua regra de neg�cios, uma consulta dever� ter resposta em tempo satisfat�rio.

Por que n�o criar �ndices

Os �ndices s�o muito bons no sentido de performance do banco de dados, otimizam as buscas de dados, mas, por outro lado, consomem muito espa�o em disco, o que pode se tornar concorrente do pr�prio banco se voc� o det�m em um espa�o generoso ou pode se tornar caro quando de det�m o banco em um storage.

Considere as seguintes observa��es antes de criar �ndices:

Quando colunas indexadas s�o modificadas, o SGBD desloca recurso internamente para manter esses �ndices atualizados e associados;
A manuten��o de �ndices requer tempo e recursos, portanto, n�o crie �ndices que n�o ser�o usados efetivamente;
Quando se cont�m grande quantidade de dados duplicados, �ndices apresentam mais custo que benef�cios. Assim como usar �ndices com atributos de pouca varia��o, como �sexo� ou atributos do tipo flag.

Arquitetura de �ndice

A arquitetura de �ndice contemplada dentro do SQL Server 2000 compreende-se em torno de tipos de �ndices e pilha de dados.

Existem tr�s tipos de �ndices:

�ndices de agrupamento ou ordenados: Os dados s�o armazenados em uma p�gina de dados, em rodem crescente. A ordem dos valores nas p�ginas de �ndice tamb�m � crescente.
�ndice sem agrupamento e de hash, criado sobre uma pilha: Quando um �ndice sem agrupamento � criado sobre a pilha, o SQL Server usa os identificadores de registros das p�ginas de �ndice que indicam os registros das p�ginas de dados.
�ndices sem agrupamento ou de hash criados sobre um �ndice agrupado ou ordenado: Quando um �ndice sem agrupamento � criado sobre uma tabela com um �ndice de agrupamento, o SQL Server usa uma chave de agrupamento nas p�ginas de �ndice que indicam o �ndice de agrupamento. A chave de agrupamento armazena informa��es sobre a localiza��o dos dados (headers em forma de hash).

Para manipular as pilhas, o SQL Server apresenta um mecanismo chamado �IAM� (Index Allocation Map), que cont�m informa��es sobre onde �s extens�es de uma pilha s�o armazenadas. S�o usadas para navegar pela pilha e encontrar espa�os dispon�veis para os novos registros inseridos e, al�m disso, s�o respons�veis por conectar as p�ginas de dados.

No caso que voc� tenha um atributo inteiro, definido como chave prim�ria e sendo assim, declarado com IDENTITY, a pilha de dados poder� n�o conter a mesma ordem f�sica, caso seja uma tabela com grande volume de inser��es e exclus�es. A Figura 2 mostra uma pilha contendo a chave prim�ria �c�digo� e um �ndice qualquer �nome�. Olhando bem a figura voc� compreender� que o mecanismo de arruma��o da pilha, rapidamente, ap�s uma exclus�o seguida por um novo cadastro, faz a realoca��o do novo registro e este � inserido onde anteriormente existia um valor. Resumindo, o mecanismo restaura o espa�o para novos registros na pilha ap�s exclus�es.

Usando �ndices de agrupamento ou ordenado (CLUSTERED)

Os �ndices agrupados s�o criados automaticamente na maioria das tabelas que criamos, pois, quando n�o declaramos NONCLUSTERED em uma chave-prim�ria, este campo automaticamente assume o valor de CLUSTERED. Mas, alguns fatos devem ser levados em conta na cria��o de �ndices agrupados, tais como:

Cada tabela poder� ter apenas um e somente um �ndice agrupado, uma PK por exemplo;
A ordem dos registros da tabela e a ordem dos registros do �ndice s�o iguais. Voc� deve criar �ndice de agrupamento antes de criar �ndices sem agrupamento, pois um �ndice de agrupamento altera a ordem f�sica dos registros da tabela. Os registros s�o classificados em uma ordem sequenciada e mantidos nessa ordem;
A exclusividade de valores de chave � mantida de modo expl�cito, com a palavra-chave UNIQUE, ou de modo impl�cito, com um identificador interno �nico. Esses identificadores s�o internos do SQL Server e n�o podem ser acessados pelo usu�rio;
5 % do tamanho da tabela � o limite para o tamanho permitido para o valor do atributo indexado;
Durante a cria��o de um �ndice de agrupamento, ser� necess�rio espa�o em disco de aproximadamente 1,2 vezes o tamanho atual da tabela na qual pertence � coluna que ser� indexada. Ap�s esta opera��o, o espa�o em disco � restaurado automaticamente.

Usando �ndices de sem agrupamento ou de hash (NONCLUSTERED)

Os �ndices sem agrupamento s�o �teis quando os usu�rios precisam de v�rias maneiras para pesquisar dados. Por exemplo, um leitor pode pesquisar frequentemente em um livro sobre jardinagem os nomes comuns e cient�ficos das plantas. Voc� poder� criar um �ndice sem agrupamento para recuperar os nomes cient�ficos e um �ndice de agrupamento para recuperar os nomes comuns.

Voc� tem toda flexibilidade para combinar declara��es SQL para manipular tais �ndices, como criar um �ndice sem agrupamento, que mantenha unicidade usando UNIQUE em meio � declara��o de cria��o de �ndice, que veremos mais � frente.

Alguns fatos que devem ser entendidos:

A ordem das p�ginas de dados de �ndices sem agrupamento n�o apresenta a mesma ordena��o que a ordena��o f�sica ou das tabelas;
A exclusividade � mantida no n�vel folha com chaves de agrupamento ou identificadores de registro;
Podem existir at� 249 �ndices sem agrupamento por tabela;
A cria��o de �ndices sem agrupamento � mais eficiente em colunas que apresentem seletividade alta e �nica;
Os identificadores de registro especificam a ordem l�gica dos registros e consistem na identifica��o do arquivo, no n�mero da p�gina e na identifica��o do registro.

Um pouco de pr�tica

No SQL Server podemos exibir, estando j� no Query Analyser e conectando a uma base de dados, os mapas de aloca��o de �ndices de forma bem f�cil.

Vamos ent�o, criar uma tabela para buscarmos em cima dela, algumas defini��es de �ndices b�sicas e de grande relev�ncia para a conceitua��o, como mostra a Figura 3.

O seguinte comando exibe as informa��es dos mapas, tamb�m conhecidos como �IAM�, j� mencionado aqui neste artigo, como mostra a Figura 4.

Executando o comando DBCC CHECKALLOC, visualizamos as p�ginas de aloca��o de �ndices, quantidade de extens�es daquele determinado �ndice e a qual objeto do nosso banco de dados ele pertence.

Temos tamb�m outro recurso pr�prio, uma system stored procedure, que nos ajuda a verificar �ndices pr�prios de uma tabela espec�fica, dentro de um schema. O seguinte procedimento nos mostrar� �ndices contidos em nossa tabela, como mostra a Figura 5.

Veja que a coluna index_name exibe o nome do �ndice que pertence � tabela que passamos na declara��o @objname. Como s� podemos criar um �ndice clusterizado/agrupado por entidade, podemos criar outros �ndices n�o agrupados caso seja pertinente com a regra de neg�cios a ser aplicada. Na �ltima imagem, podemos perceber tamb�m, a qual atributo da entidade est� aplicado o �ndice e tamb�m suas descri��es.

Lembrando que o nome do �ndice apresentado no como valor do atributo index_name poder� variar de servidor para servidor.

Como o SQL Server recupera os dados armazenados

Todos os �ndices criados em uma base de dados dentro do SQL Server, tem suas informa��es armazenadas em uma tabela chamada SYSINDEXES, que cont�m informa��es estat�sticas, como o n�mero de registros e p�ginas de dados em cada tabela, al�m de descrever como localizar as informa��es que s�o apontadas pelos �ndices.

Levando em conta que cada tabela possui uma cole��o de p�ginas de dados, cada tabela e �ndice s�o identificados de forma exclusiva pela combina��o entre coluna identificadora (PK, por exemplo) e a coluna identificadora de �ndices (INDID).

Consultando informa��es na tabela sysindexes

A tabela do sistema sysindexes � o local central para informa��es vitais sobre objetos como entidades e �ndices destas entidades. Cont�m informa��es estat�sticas, como o n�mero de registros e p�ginas de dados em cada tabela. Al�m disso, descreve como localizar as informa��es armazenadas em uma tabela de dados.

Os ponteiros de p�ginas da tabela sysindexes ancoram todas as cole��es de p�ginas de tabelas e �ndices. Cada tabela possui uma cole��o de p�ginas de dados, al�m de cole��es de p�ginas adicionais para implementar cada �ndice definido para a tabela.

Um registro na tabela sysindexes de cada tabela e um �ndice � identificado de forma exclusiva pela combina��o entre a coluna identificadora de objetos (id) e a coluna identificadora de �ndices (indid), como mostra a Figura 6.

Consultando informa��es na tabela sysindexes

� fato que bancos de dados trabalham bem mais r�pido com campos que armazenam n�meros, j� que os processadores, tanto de tecnologia Cisc (Complex Instruction Set Computer) quanto Risc (Reduced Instruction Set Computer), s�o �timos em comparar maiores, menores, m�ltiplos, divisores, iguais, diferentes, enfim, trabalham bem com n�meros. Essa pequena abordagem se deve ao fato de tudo dentro de um sistema de computa��o ser� analisado com convers�es bin�ria ou hexadecimal. Com bancos de dados e mais precisamente com a tabela sysindexes tamb�m n�o se faz contr�rio.

Descrevendo o que vemos na �ltima imagem:

name e indid: o nome do �ndice que est� sendo usado no campo usu�rio_cpf da entidade tbl_usuario, que � nossa (PK), isso quer dizer diretamente que seu INDID ou identificador de �ndice na tabela sysindexes � igual a 1;
keys e root: os campos que guardam dados varbinary e bynari, respectivamente, s�o uma identifica��o �nica dos �ndices que s�o criados, localiza��o na �rvore e indicadores para seus dados nas p�ginas de dados.

Localizando registros sem �ndices

Quando n�o existe nenhum �ndice em uma determinada tabela, o Otimizador de consultas � acionado e ent�o utiliza a varredura de tabela para recuperar registro, uma das formas que este usa, a qual j� vimos anteriormente.

N�o � uma boa pr�tica visto que, em uma tabela com muitos registros ou mesmo uma tabela que possa ser considerada com grande, n�o haver� apontamentos para indicar onde est�o os dados que estamos buscando. A performance em buscas desse tipo pode n�o ser t�o satisfat�ria quando se deseja recuperar poucos dados.

Os registros s�o retornados fora da ordem. Talvez eles sejam inicialmente retornados na mesma ordem da inser��o, mas essa ordem n�o ser� mantida, j� que ap�s algumas exclus�es as novas inser��es ocupar�o esses espa�os, tornando a ordem imprevis�vel.

Localizando registros sem agrupamento/n�o-clusterizados em uma pilha

Nesse caso, as disposi��es �ndices e dados estar�o em planos diferentes, sendo que, os �ndices dispostos como um �ndice de um livro e os dados como o conte�do do livro. A� que entram as ideias de apontamentos. Os ponteiros indicam o local de armazenamento dos itens indexados na tabela subjacente.

Os �ndices dentro da Arquitetura do SQL Server s�o organizados, implementado o conceito de *�rvore B, sendo que cada p�gina de �ndice cont�m um cabe�alho de p�gina seguido por registros de �ndice. Cada registro de �ndice cont�m um valor de chave e um ponteiro para outra p�gina ou registro de dados, formando os cabe�alhos j� vistos outrora aqui, conforme a Figura 7.

Localizando registros sem agrupamento/n�o-clusterizados em uma pilha

O SQL Server utiliza os n�veis da �rvore B com nota��es n� de �ndice, n�vel raiz e n�vel folha ou n� folha. Quaisquer n�veis entre os n�s raiz e folha s�o chamados de n�veis intermedi�rios. Cada p�gina nas camadas intermedi�rias ou inferiores tem ponteiros ou apontamentos anteriores ou posteriores em uma lista dupla relacionada.

Em uma entidade que s� contenha um �ndice sem agrupamento, os n�s folha possuem localizadores de registros com apontamentos para registros de dados que cont�m os valore de chave. Cada ponteiro (RID ou ROWID � identificador de registro ou de linha) � criado com base na identifica��o do arquivo, no n�mero da p�gina e no n�mero do registro da p�gina.

Localizando registros em um �ndice de agrupamento

Os �ndices de agrupamento e sem agrupamento compartilham da mesma estrutura dentro da ��rvore B�, mas com algumas diferen�as:

As p�ginas de dados de um �ndice de agrupamento s�o os n�s folha da estrutura da ��rvore B�;
Os registros s�o armazenados em ordem sequencial baseada na chave do agrupamento;

Um �ndice de agrupamento (clusterizado ou ordenado) � como um �ndice remissivo de um livro, como j� citamos, os assuntos est�o agrupados todos por uma ordem ascendente, facilitando a pesquisa de dados e localiza��o deles dentro da �rvore. Lembrando que n�o importa se esta � muito ramificada devido ao seu tamanho.

Como um �ndice de agrupamento determina a sequ�ncia em que os dados s�o armazenados em uma tabela, s� pode haver um �ndice deste tipo por entidade.

Localizando registros em um �ndice de agrupamento com �ndice sem agrupamento

Quando um �ndice sem agrupamento � adicionado a uma tabela que j� tem um �ndice de agrupamento, o localizador de registro de cada �ndice sem agrupamento cont�m o valor de �ndice da chave de agrupamento do registro.

Quando forem usados �ndices de agrupamento e sem agrupamento em uma mesma tabela, as estruturas da �rvore B e dos �ndices devem ser percorridas para que os dados sejam localizados. Isso gera custo alto com I/O.

Como o valor de um �ndice de agrupamento � maior do que o RID de 8 bytes usado para a pilha, os �ndices sem agrupamento podem ser substancialmente maiores em tabelas de agrupamento indexadas do que quando criados em pilhas. Se voc� mantiver baixos os valores de chave do �ndice de agrupamento, isso lhe ajudar� a criar �ndices menores e mais r�pidos.