SQL Server Cluster: Índices Clusterizados e não clusterizados

Dentre as estrat�gias de otimiza��o para bancos de dados os �ndices s�o os mais usados e atuam diretamente no sequenciamento dos dados mapeados, criando links para as linhas das tabelas e aumentando a performance das consultas. Um problema comum ao usar �ndices � achar que s� precisamos espalhar v�rios deles pelas tabelas e teremos alta performance automaticamente. Este artigo trata de desmistificar o assunto, esclarecendo as diferen�as entre dois tipos de �ndices: clusterizados e n�o-clusterizados, al�m de compreender como e quando adot�-los em seus projetos, seus pr�s e contras, etc. Voc� tamb�m ver� exemplos pr�ticos com medidores de performance para avaliar quem se sai melhor em cada situa��o.

Os �ndices s�o estruturas usadas para armazenar de forma eficiente dados de uma ou mais colunas de tabelas e/ou views para que possam ser recuperados mais rapidamente quando consultas forem feitas �s mesmas.

Existem v�rios tipos de �ndices para os bancos de dados, como hash, columnstore, xml, etc. Neste artigo trataremos de explicar os dois mais usados: �ndices clusterizados e n�o-clusterizados. Usaremos o SQL Server para construir os exemplos do artigo; o leitor poder� encontrar uma rela��o dos demais tipos na URL disponibilizada na se��o Links.

Clusterizado vs N�o-Clusterizado

Um �ndice clusterizado determina a ordem em que as linhas de uma tabela s�o armazenadas no disco. Se uma tabela tem um �ndice clusterizado, no momento de um INSERT as linhas dessa tabela ser�o armazenadas em disco na ordem exata do mesmo �ndice. Por exemplo, suponha que temos uma tabela chamada �Livro� que tem uma coluna de chave prim�ria �livroID� e que criamos um �ndice clusterizado para essa mesma coluna. Ao fazer isso, todas as linhas dentro da tabela Livro ser�o fisicamente ordenadas (no disco atual em que est�o inseridas) atrav�s dos valores que est�o na coluna livroID.

Isso implicar� em um ganho enorme na performance das pesquisas, pois as colunas da tabela estar�o ordenadas na mesma ordem dos �ndices clusterizados por interm�dio do modelo de armazenamento usado por esse tipo de �ndice.

J� os �ndices n�o-clusterizados n�o fazem esse trabalho de ordena��o dos dados tal qual � feito com os �ndices clusterizados. Em outras palavras, enquanto os �ndices clusterizados ordenam fisicamente tanto as linhas da tabela quanto os pr�prios �ndices e mant�m os mesmos pr�ximos uns aos outros; os n�o-clusterizados ordenam somente o �ndice em si, e n�o as linhas (que s�o salvas sempre de forma aleat�ria no disco).

Numa tabela, quando � definida uma chave prim�ria, um �ndice clusterizado � criado automaticamente pelo banco para a mesma. E o que ele faz basicamente � ordenar as informa��es pela coluna de chave daquele �ndice em disco.

Vejamos um exemplo mais pr�ximo da realidade, considere uma tabela de CEP (CEP, Endere�o, Bairro, Cidade, etc.) com uma enorme quantidade de dados e que ser� muito pouco atualizada. Essa tabela ser� usada por um sistema onde um usu�rio informa o CEP num campo da tela e os outros campos de endere�o devem ser carregados automaticamente ap�s um Enter.

O primeiro crit�rio para avaliar se a nossa tabela precisa de um �ndice � analisar quais colunas recebem mais consultas, portanto a coluna CEP. Para melhorar a performance nas pesquisas, o DBA tem como op��o mais vi�vel a cria��o de um �ndice nessa coluna. Vejamos as duas realidades caso ele optasse por �ndices clusterizados e n�o-clusterizados:

Com um �ndice n�o-clusterizado, o banco salvaria os dados de CEP de forma aleat�ria no disco e armazenaria no �ndice apenas um ponteiro para o local onde o dado real est�.
Com um �ndice clusterizado, o banco salvaria os dados de CEP ordenados fisicamente e, sempre que um novo dado for inserido ou atualizado, teremos de arcar com o custo de reescrever os dados no �ndice para que os mesmos continuem ordenados.

Portanto, como a coluna CEP sofrer� poucas ou nenhuma atualiza��o, a melhor estrat�gia � criar um �ndice clusterizado para a mesma. Todavia, se a coluna sofresse muitas atualiza��es, criar um �ndice clusterizado poderia invalidar o custo x benef�cio que vimos, com mais sobrecarga e menos performance. Neste caso, o leitor deve analisar os cen�rios e, atrav�s de testes de desempenho e stress, avaliar qual a melhor alternativa. Mais adiante faremos uma an�lise comparativa entre o uso de ambos os �ndices num exemplo pr�tico, com medidores de desempenho para que voc� entenda melhor as diferen�as entre os mesmos.

Vantagens x Desvantagens

Os �ndices clusterizados t�m como principal vantagem a performance nas pesquisas: elas s�o mais r�pidas em rela��o aos n�o-clusterizados. Isso se deve ao fato de as informa��es daquele �ndice e sua coluna respectiva estarem ordenadas e pr�ximas na mem�ria f�sica do banco. A principal desvantagem � o �custo� de novas escritas em disco que isso trar� para o mesmo. Por exemplo, se uma linha em espec�fico tiver seu valor atualizado (UPDATE) em uma de suas colunas de �ndice (clusterizados), o banco de dados ir� mover a linha inteira para que a tabela continue a ser ordenada na mesma ordem da coluna de �ndice clusterizado. Imagine quantas vezes isso poder� ser feito em um sistema que atualiza muitos dados na referida tabela. Uma op��o pode ser n�o usar o �ndice clusterizado nesse caso, mas o problema retorna quando a mesma tabela tamb�m passar a receber muitas pesquisas.

Para manter a organiza��o o banco de dados precisar� sempre rearranjar as linhas quando um UPDATE for efetuado. Isso trar� consequ�ncias diretas na performance da base inteira e deve ser algo planejado antes.

Tanto os �ndices clusterizados quanto os n�o-clusterizados podem ser exclusivos. Isso significa que duas linhas n�o podem ter o mesmo valor que a chave de �ndice. Caso contr�rio, o �ndice n�o ser� exclusivo e v�rias linhas poder�o compartilhar o mesmo valor de chave. Al�m disso, para cada tabela podemos ter apenas um �ndice clusterizado, ao passo que essa restri��o n�o se aplica aos n�o-clusterizados. Essa limita��o caracteriza mais um ponto a ser avaliado com cuidado quando do uso dessas estruturas em suas tabelas.

� poss�vel ainda criar �ndices clusterizados e n�o-clusterizados em tabelas no SQL Server usando o SQL Server Management Studio ou o Transact-SQL.

Exemplo Pr�tico

Para exemplificar na pr�tica, vamos criar uma implementa��o comparativa e analisar a diferen�a em performance no uso dos dois tipos de �ndices. Para isso, � necess�rio que o leitor j� tenha o SQL Server � 2005 ou superior - instalado na sua m�quina (cuja instala��o n�o far� parte do escopo deste artigo), al�m de baixado o arquivo do banco de exemplo que a Microsoft disponibiliza no seu site oficial; utilizaremos a base chamada AdventureWorks2012 (vide se��o Links) para facilitar os testes e n�o termos de criar um exemplo do zero. Certifique-se de baixar a vers�o correspondente ao seu SQL Server, no nosso exemplo usaremos a vers�o 2014.

Saiba mais Curso de SQL Server

Descompacte o arquivo e importe-o na ferramenta do SQL. Os �ndices s�o criados automaticamente quando se � definida uma constraintdo tipo Primary Key (chave prim�ria) para uma ou mais colunas. Assim, o banco assume que estas colunas que formam a chave prim�ria de uma tabela podem ser tamb�m usadas para definir seu �ndice clusterizado. Em outras palavras, se no momento da cria��o da chave n�o forem definidos detalhes, ser� automaticamente criado um �ndice clusterizado sobre a(s) mesma(s) coluna(s).

A Primary Key � um conceito l�gico que se destina a melhorar a implementa��o do modelo do banco de dados, enquanto que o �ndice clusterizado � um conceito f�sico para organizar as p�ginas de dados de uma tabela. Por isso, lembre-se que se tivermos muitas instru��es de INSERT, UPDATE e DELETE, � recomendado n�o usar esse tipo de �ndice para n�o perder desempenho organizando os dados a cada atualiza��o.

Saiba mais: Guia Completo de SQL Server

A cria��o de um �ndice clusterizado pode ser feita tanto no desenvolvimento da tabela quanto via T-SQL�s (extens�o do SQL propriet�ria da Microsoft e Sybase). Vejamos ent�o como seria essa aplica��o a partir de uma T-SQL, de acordo com a Listagem 1.

Listagem 1. Criando uma tabela com �ndice clusterizado via T-SQL.


  USE AdventureWorks2012;
  GO
  -- Cria��o da tabela de testes.
  CREATE TABLE dbo.TesteDevmedia
      (Coluna1 int NOT NULL,
       Coluna2 nchar(10) NULL,
       Coluna3 nvarchar(50) NULL);
  GO
  -- Cria��o do �ndice clusterizado chamado de IX_TesteDevmedia_Coluna1
  -- na tabela dbo.TesteDevmedia usando a coluna1.
  CREATE CLUSTERED INDEX IX_TesteDevmedia_Coluna1
      ON dbo.TesteDevmedia (Coluna1);
  GO

Para entender melhor o cen�rio de testes, o dividiremos em tr�s passos: consultaremos primeiro coluna �LastName� da tabela Person.Person sem nenhum �ndice criado, com um �ndice n�o-clusterizado e, por �ltimo, com um �ndice clusterizado. Adicionalmente, faremos as mesmas consultas, por�m envolvendo duas colunas (LastName e FirstName) de �ndice ao mesmo tempo, dessa forma o leitor poder� ver como os mesmos se comportam em cen�rios de �ndices mais complexos.

Mas antes disso, precisamos efetuar uma c�pia da tabela Person.Person, apenas para que n�o precisemos alterar a estrutura da original caso voc� necessite efetuar testes futuros. Para isso, execute o script da Listagem 2 que verificar�, primeiramente, se a tabela j� existe na base (excluindo-a caso positivo) e depois criar� a c�pia.

Listagem 2. Script para clonar tabela de Person.Person.


 USE AdventureWorks2012;
  GO
   
  IF EXISTS (SELECT * FROM sys.tables WHERE OBJECT_ID = OBJECT_ID('Person.Person_Teste'))
         DROP TABLE Person.Person_Teste;
  GO
   
  SELECT * INTO Person.Person_Teste FROM Person.Person;
  GO

No SQL Server, para clonar uma tabela, basta usar o comando de sintaxe SELECT * INTO NOVA_TABELA FROM TABELA_A_SER_COPIADA, assim o SQL extrair� toda a estrutura f�sica e dados na nova tabela. Mas para que isso funcione, a nova tabela n�o pode existir ainda (raz�o pela qual fazemos a checagem inicial na listagem).

Al�m disso, antes de executarmos a consulta para o primeiro caso de teste (sem �ndices), precisamos nos assegurar que nenhum �ndice de nenhum tipo esteja associado �s colunas de nome. Para tanto, execute o c�digo da Listagem 3 que se encarregar� de varrer a tabela de �ndices e remover o de nome �Name_Index�, que � o que daremos para o nosso futuro �ndice. A segunda parte da listagem tamb�m trata de remover o �ndice n�o-clusterizado �IX_Person_LastName_FirstName_MiddleName� que j� existe na base por padr�o e engloba as tr�s colunas de nome da tabela Person_Teste.

Listagem 3. C�digo utilizado para saber se o(s) �ndice(s) j� existe(m).


 IF EXISTS (SELECT * FROM sys.indexes WHERE OBJECT_ID = OBJECT_ID('Person.Person_Teste') AND name = 'Name_Index')
           DROP INDEX Person.Person_Teste.Name_Index;
   
  IF EXISTS (SELECT * FROM sys.indexes WHERE OBJECT_ID = OBJECT_ID('Person.Person_Teste')
           AND name = 'IX_Person_LastName_FirstName_MiddleName')
           DROP INDEX Person.Person_Teste.IX_Person_LastName_FirstName_MiddleName;

Agora que passamos pelo primeiro passo, o pr�ximo ser� habilitarmos a impress�o de dados estat�sticos via TSQL no SQL Server Management Studio, como segue:


  SET STATISTICS io ON
SET STATISTICS time ON
GO

Esse TSQL basicamente diz ao SQL Server que queremos que as nossas consultas retornem as informa��es de desempenho como parte da sa�da. Como usaremos o recurso de Table Scan do SQL Server para exibir as informa��es estat�sticas de cada consulta, bem como o desempenho das mesmas, � preciso que voc� habilite a op��o no Management Studio clicando no �cone demonstrado na Figura 1.

Habilitando
Table Scan no SQL Management Studio — **Figura 1.** Habilitando Table Scan no SQL Management Studio.

Consulta sem �ndices

Faremos agora uma busca pelo sobrenome (LastName) de uma pessoa dentro da base de exemplo e veremos o �esfor�o� com o qual a informa��o ser� retornada sem a utiliza��o de �ndices. A seguir temos o nosso c�digo para busca dos dados de uma pessoa em espec�fico no banco:


  SELECT *
    FROM Person.Person_Teste where LastName = 'Brown';
  GO

A execu��o trar� um resultado de 92 linhas de um total de 19.972 linhas na tabela. Agora, basta acessar a aba �Execution plan� ao lado da aba �Results� e voc� ver� algo semelhante ao que temos na Figura 2.

**Figura 2.** Tabela de custos para a execu��o do SELECT sem �ndices.

Como podemos ver na figura, essa query teve um �custo estimado de sub�rvore� de 2.84451. Esse valor representa o custo total do otimizador do SQL para executar n�o s� essa query, mas todas as opera��es que a precederam na mesma sub�rvore. Quanto menor esse n�mero, menor a intensidade da execu��o da referida query para o banco.

Consulta com �ndice n�o-clusterizado

Agora, para efetuar o mesmo teste, por�m com um �ndice n�o-clusterizado, precisamos criar explicitamente um novo envolvendo a coluna usada na pesquisa. Crie, portanto, o �ndice tal como mostra a Listagem 4.

Listagem 4. Cria��o do �ndice n�o-clusterizado �Name_Index�.


  USE AdventureWorks2012;
  GO
   
  CREATE NONCLUSTERED INDEX Name_Index
      ON Person.Person_Teste (LastName);
  GO

Ap�s isso, basta realizar uma nova consulta com base no mesmo script de SELECT com as mesmas informa��es usadas para a coluna de LastName e verificar o resultado na aba �Execution plan�, tal como mostra a Figura 3. Veja que o custo caiu para 0.283268, isto �, uma redu��o m�nima, principalmente por estarmos lidando com uma base n�o t�o populosa assim, mas j� � o suficiente para mostrar o ganho em qualquer tipo de consulta realizada com esse tipo de �ndice.

**Figura 3.** Tabela de custos para a execu��o do SELECT com um �ndice n�o-clusterizado.

Indice clusterizado

Para fazer o mesmo teste com um �ndice clusterizado, precisamos nos assegurar de remover o que criamos na listagem anterior, bem como criar o novo com a nova sintaxe. Para isso, execute o script contido na Listagem 5.

Listagem 5. Cria��o do �ndice clusterizado �Name_Index�.


  IF EXISTS (SELECT * FROM sys.indexes WHERE OBJECT_ID = OBJECT_ID('Person.Person_Teste') AND name = 'Name_Index')
         DROP INDEX Person.Person_Teste.Name_Index;
   
  CREATE CLUSTERED INDEX Name_Index
      ON Person.Person_Teste (LastName);
  GO

Ap�s a execu��o, rode mais uma vez o SELECT e acesse novamente a aba �Execution plan�. Voc� ver� algo semelhante � Figura 4.

**Figura 4.** Tabela de custos para a execu��o do SELECT com um �ndice clusterizado.

Observe o enorme ganho que tivemos, mesmo com um exemplo bem simples e poucos dados na base. O valor de custo que era de 2.84451 caiu para 0.01558. Em termos de tempo final de execu��o, e levando em considera��o uma massa expressiva de dados, teremos um ganho enorme usando a op��o com �ndice clusterizado.

Consulta comparativa com �ndices de colunas compostas

Para entender ainda mais como o mecanismo de �ndices funciona veremos dois exemplos de uso dos dois tipos, por�m agora com duas colunas de �ndice (�ndice composto). Para isso, execute o script demostrado na Listagem 6.

Listagem 6. Cria��o do �ndice n�o-clusterizado nas colunas de nome e sobrenome.


  IF EXISTS (SELECT * FROM sys.indexes WHERE OBJECT_ID = OBJECT_ID('Person.Person_Teste') AND name = 'Name_Index')
         DROP INDEX Person.Person_Teste.Name_Index;
   
  CREATE NONCLUSTERED INDEX Name_Index
      ON Person.Person_Teste (FirstName, LastName);
  GO

Ap�s isso, vamos executar a mesma query (Listagem 7), incluindo agora a coluna de FirstName. Al�m disso, vamos complicar um pouco mais a consulta incluindo na busca tamb�m a coluna de primeiro nome (FirstName), e uma cl�usula LIKE na condi��o para exigir que o banco trabalhe mais para encontrar os resultados.

Listagem 7. Consulta envolvendo as duas colunas de nome, com uma cl�usula LIKE.


  SELECT FirstName, LastName
    FROM Person.Person_Teste 
         where FirstName like '%Jo%' and LastName = 'Brown';
  GO

O resultado pode ser visualizado na Figura 5. Para efetuar a compara��o com o �ndice clusterizado composto, execute a query da Listagem 8, reexecute o mesmo SELECT e veja o respectivo resultado na Figura 6.

Tabela de custos para a execu��o do SELECT com um �ndice n�o-clusterizado
composto — **Figura 5.** Tabela de custos para a execu��o do SELECT com um �ndice n�o-clusterizado composto.

Listagem 8. Cria��o do �ndice clusterizado nas colunas de nome e sobrenome.


  IF EXISTS (SELECT * FROM sys.indexes WHERE OBJECT_ID = OBJECT_ID('Person.Person_Teste') AND name = 'Name_Index')
         DROP INDEX Person.Person_Teste.Name_Index;
   
  CREATE NONCLUSTERED INDEX Name_Index
      ON Person.Person_Teste (FirstName, LastName);
  GO

**Figura 6.** Tabela de custos para a execu��o do SELECT com um �ndice clusterizado composto.

H� momentos em que a utiliza��o de �ndices clusterizados se torna um preju�zo, isso quando est� relacionada �s instru��es de INSERT, UPDATE e DELETE. Em geral, as vantagens de recupera��o superam os inconvenientes de manuten��o, tornando um �ndice clusterizado bem visto pela comunidade de DBA�s.

Al�m disso, lembre-se que cada tabela de um esquema pode ter v�rios �ndices n�o-clusterizados ao mesmo tempo, por�m somente um clusterizado. Al�m disso, avalie sempre bem cada caso e verifique se o overhead gerado valer� a pena na performance final da sua base dados, fazendo sempre uso dos mecanismos de medi��o de performance que vimos no artigo. At� a pr�xima!