Trabalhando com �ndices no PostgreSQL

Ao trabalharmos com bancos de dados, temos a necessidade de apresentar resultados com tamanha efici�ncia e rapidez, no entanto, chega um determinado momento em que o desempenho da base de dados cai, n�o sendo mais satisfat�rio dessa forma. Eis que quando isto acontece, um recurso � bastante utilizado para a resolu��o desse problema, que � a utiliza��o da indexa��o no banco de dados. Neste artigo, temos a inten��o de apresentar uma vis�o geral sobre os �ndices, de forma a termos a apresenta��o de exemplos para uma melhor assimila��o de seus resultados.

�ndices de banco de dados

Antes de mais nada, precisamos entender o que s�o os �ndices para a base de dados, onde em geral, ele � uma estrutura de dados utilizada para melhorar o tempo de execu��o das consultas, ou seja, os �ndices s�o estruturas que organizam refer�ncias a localiza��o dos dados reais das tabelas.

Quando estamos lidando com SGBD�s (Sistemas Gerenciadores de Bancos de Dados), como � o caso do PostgreSQL, temos que o �ndice � uma �c�pia� do item que desejamos combinar com uma refer�ncia � localiza��o real dos dados. Quando realizamos buscas nas tabelas sem a utiliza��o de �ndices, dependendo da quantidade de registros, podemos perceber que a busca � um pouco lenta, pois dessa forma, a pesquisa � realizada de forma sequencial. Quando dizemos que existe uma pesquisa sequencial, estamos nos referindo a uma busca linha a linha em toda a tabela (ou conjunto de tabelas) da base de dados com o intuito de obter a informa��o necess�ria. Para entendermos melhor os �ndices, vejamos primeiramente como os dados armazenados nas tabelas s�o organizados, onde existem duas formas, que s�o as tabelas heaps e as tabelas organizadas por �ndices.

Tabelas heap

Quando tratamos de tabelas heap, que � a forma padr�o de armazenamento, temos que os dados s�o armazenados sem uma ordem particular, o que quer dizer que ao adicionarmos novos registros, estes s�o introduzidos sem uma reorganiza��o dos dados existentes na tabela. Dessa forma, temos um melhor desempenho no momento de inser��o de dados, mas, o resultado n�o � t�o bom quando tentamos recuperar as informa��es. Isso ocorre devido ao fato dos dados n�o estarem estruturados em uma ordem espec�fica. No momento em que precisamos recuperar estas informa��es, realizamos uma busca por cada registro presente na tabela, o que acarreta maior tempo para a obten��o da informa��o.

Tabelas organizadas por �ndice

A segunda forma de organiza��o � conhecida por �Index-organized Tables - (IOT)�, ou simplesmente, Tabelas organizadas por �ndices, onde esta forma de organiza��o dos �ndices cont�m dados de todas as colunas das tabelas.

Os �ndices podem ser utilizados em qualquer uma das estruturas apresentadas, mas precisamos ter cuidado com a quantidade de �ndices por tabela, isso devido a sobrecarga durante as opera��es DML (INSERT, UPDATE e DELETE), onde para cada uma das opera��es realizadas, � necess�ria a atualiza��o dos �ndices, o que pode levar um tempo.

Ao trabalharmos com os �ndices, temos a nossa disposi��o uma estrutura adicional de dados, que nos possibilita a pesquisar dados, otimiza��o, jun��es, relacionamentos e agrupamento de informa��es.

Vantagens e desvantagens

Uma das vantagens quando lidamos com �ndices � que as pesquisas s�o realizadas de maneira mais r�pidas na base de dados, quando estes s�o adicionados em campos �nicos, como por exemplo, o CPF de um cliente. A desvantagem encontrada � que os dados s�o adicionados de forma mais lenta com base nos �ndices criados, principalmente quando desejamos inserir dados em duas tabelas diferentes, devido a reorganiza��o dos �ndices. Contudo, � necess�rio tomar cuidado ao criarmos os �ndices, pois estes n�o podem ser gerados para qualquer dado, pois isso faria com que a pesquisa se tornasse mais demorada.

Tipos de �ndices

Com o PostgreSQL, temos a nossa disposi��o v�rios tipos de �ndices, sendo estes o B-tree, hash, GiST, SP-GiST e o GIN. Cada um dos tipos de �ndice citados usam um algoritmo diferente que s�o utilizados para diferentes tpos de consultas. Por padr�o, o comando CREATE INDEX cria �ndices do tipo B-tree, sendo este o que se encaixa melhor nas situa��es mais cotidianas. Vejamos ent�o os tipos de �ndices e como utiliz�-los.

�ndices B-tree

Os �ndices do tipo B-Tree s�o o padr�o utilizado no momento que criamos nossos �ndices com a instru��o CREATE INDEX. O �B� significa equilibrada (Balanced), e a ideia � que a quantidade de dados em ambos os lados da �rvore seja mais ou menos o mesmo. Eles podem operar todos os tipos de dados, e tamb�m podem ser utilizados para recuperar valores nulos. Este tipo de �ndice � projetado para trabalhar muito bem com cache. Um exemplo de sua utiliza��o pode ser visto da seguinte forma:

CREATE INDEX ON idx_aluno Alunos (codAluno);

�ndices Hash

Com rela��o aos �ndices hash, estes s�o �teis apenas para compara��es de igualdade. No entanto, este n�o � um tipo que ofere�a transa��es seguras, sendo assim, � melhor que elas sejam evitadas, al�m disso, elas precisam ser reconstru�das de forma manual ap�s acidentes. Vejamos um simples exemplo de sua utiliza��o, como o apresentado a seguir:

CREATE INDEX idx_aluno ON Alunos USING hash (codAluno);

�ndices GIN

Os �ndices do tipo GIN (Generalized Inverted Indexes) s�o bastante �teis no momento em que um �ndice deve mapear v�rios valores para uma linha, o que difere dos �ndices B-Tree que s�o otimizados para quando uma linha possui um �nico valor de chave. Os GIN�s s�o bons para os valores de indexa��o de matrizes, bem como para a aplica��o de pesquisa de textos completos. Vejamos como seria a sua utiliza��o a seguir:

CREATE INDEX busca_aluno_idx ON Alunos USING gin (nome gin_trgm_ops, email gin_trgm_ops);

Percebam que neste caso temos a utiliza��o do gin_trgm_ops, que � utilizado para dizer ao Postgres usar trigramas utilizando as colunas selecionadas. Uma trigrama � uma estrutura de dados que armazena 3 letras de uma palavra. Com base nisso, o Postgres ir� �quebrar� cada coluna de texto em trigramas e em seguida, ir� usar isso nos �ndices quando realizarmos as pesquisas.

�ndices GIST

Os �ndices do tipo GIST (Generalized Search Tree), nos permitem construir estruturas de �rvores equilibradas, e podem ser utilizadas para opera��es mais avan�adas que as compara��es de igualdade. Eles s�o utilizados para indexar os tipos de dados geom�tricos, bem como pesquisas por textos completos. A sua cria��o seria de acordo com a seguinte express�o:

CREATE INDEX busca_aluno_cep_idx ON Alunos USING gist (cep gin_trgm_ops);

�ndices concorrentes

No momento da constru��o dos �ndices, a tabela � bloqueada automaticamente para instru��es de inser��o na tabela, at� que o �ndice seja constru�do. No entanto, temos que ter em mente que a cria��o de �ndices para as tabelas � uma opera��o cara, e em caso de ser criado um �ndice em uma tabela de tamanho relativamente grande, os �ndices podem levar muito tempo para serem criados. Isso pode causar alguma dificuldade no que diz respeito � realiza��o de quaisquer opera��es de grava��o, o que para ser resolvido, temos a nossa disposi��o no Postgres, a op��o de criarmos �ndices concorrentes, os quais s�o �teis no momento em que precisamos criar �ndices nos bancos de dados em produ��o. Para este tipo de �ndice, temos apresentada a sintaxe a seguir:

CREATE INDEX CONCURRENTLY index_name ON table_name using btree (column);

Single-column index

O �ndice de coluna �nica basicamente � utilizado quando uma tabela representa principalmente uma �nica categoria de dados, ou mesmo consultas que abrangem apenas uma �nica categoria na tabela. Normalmente, em um projeto de banco de dados, as tabelas representam uma �nica categoria de dados, devido a isso, normalmente � utilizada um �ndice de �nica coluna. A sintaxe para este tipo de �ndice � o seguinte:

CREATE INDEX index_name ON table_name (column);

Como simples exemplo, vejamos a seguir como seria a cria��o de um �ndice para a nossa tabela de produtos:

SELECT COUNT(*) FROM produtos WHERE codigo_produto = 320;

Como podemos observar a seguir na Figura 1, o registro que nos importa � o que contenha o c�digo de produto igual a 320, o qual devido a n�o termos um �ndice definido, levou um tempo de 32 ms para ser encontrado.

Caso n�o tenhamos um �ndice definido, ent�o teremos uma varredura completa na tabela, onde esta ser� uma opera��o dispendiosa devido a busca dos registros em quest�o. Como podemos perceber, apenas uma coluna foi utilizada junto a cl�usula WHERE, de forma a termos um �ndice em uma �nica coluna, que � o codigo_produto, no caso de nossa consulta. Com o �ndice, temos que a nossa consulta passa a ser mais otimizada, como podemos ver a seguinte instru��o para a cria��o do �ndice da nossa consulta:

CREATE INDEX produtos_index ON produtos (codigo_produto);

Neste momento, criamos um �ndice Btree, que chamamos de produtos_index, presente na coluna codigo_produto da tabela �produtos�. Com essa modifica��o realizada, tentaremos realizar a consulta novamente para que possamos ver o tempo que ser� gasto com essa opera��o, como podemos ver na Figura 2.

**Figura 2**. Resultado da consulta com �ndice.

Como podemos ver, o resultado da consulta com o �ndice levou 1 ms a menos, sendo assim um pouco mais r�pida em rela��o a utiliza��o das consultas sem �ndices. A pouca diferen�a ocorre devido ao fato de termos poucos registros na base de dados, mas considerem uma base em que tenhamos milhares de registros e percebam que o ganho em tempo de consulta se torna muito mais eficiente.

�ndices com v�rias colunas (multicolumn index)

Muitas vezes, uma consulta nas tabelas de um banco de dados envolve m�ltiplas colunas de dados para que seja apresentada a informa��o. Nestes casos, �ndices single-columns n�o oferecem um bom desempenho. Devido a esse impasse, torna-se necess�rio que tenhamos a nosso favor �ndices de m�ltiplas colunas, o qual � suportado pelo PostgreSQL, sendo representado pela seguinte sintaxe:

CREATE INDEX index_name ON table_name (column1, column2);

Para que possamos ver melhor a utiliza��o do �ndice de m�ltiplas colunas para otimizarmos as consultas, iremos realizar a consulta onde obteremos o n�mero total de registros cujo codigo_produto ser� inferior a 400 e o pre�o do produto ser� abaixo de 300. Mas antes de realizarmos esta opera��o, fa�amos uma consulta simples sem a utiliza��o do �ndice na tabela para vermos o tempo necess�rio para a realiza��o da consulta, como podemos ver a seguir:

SELECT COUNT(*) FROM produtos WHERE codigo_produto < 400 AND preco < 300;

Como podemos observar na Figura 3, obtivemos um tempo de resposta de 13 ms.

**Figura 3**. Consulta com m�ltiplas colunas sem index.

Vejamos agora a cria��o do �ndice composto pelas colunas de c�digo_produto e preco para a realiza��o da consulta. O �ndice ser� definido da seguinte forma:

CREATE INDEX produtos_multicolumns_index ON produtos (codigo_produto, preco);

E agora, reexecutemos a consulta, como podemos ver a seguir a seguinte declara��o:

SELECT COUNT(*) FROM produtos WHERE codigo_produto < 400 AND preco < 300;

Novamente, obtivemos um resultado mais r�pido, onde foi contabilizado um tempo de execu��o de 12 ms com a utiliza��o do �ndice, como podemos ver na Figura 4.

**Figura 4**. Index utilizando m�ltiplas colunas.

Para darmos continuidade ao nosso prop�sito de estudarmos com rela��o a utiliza��o dos �ndices, iremos criar uma nova base de dados, a qual deve ser chamada de dvdrental. Esta � uma base de dados de exemplo, disponibilizada para testes com o PostgreSQL, onde o link para download est� dispon�vel no fim do artigo.

Criando nova base de dados

Para criarmos a base de dados dvdrental, utilizaremos o seguinte comando:

CREATE DATABASE dvdrental;

Em seguida, quando tivermos finalizado o download e criado a base de dados, precisaremos adicionar os registros �s tabelas. Para isso, descompactaremos o arquivo zip, onde teremos um novo arquivo do tipo .Tar. Ap�s descompactar, voltemos ao pgadmin III, e clique com o bot�o direito na base de dados que acabamos de criar. Dentre as op��es apresentadas, selecione a op��o �restore�, como mostra a Figura 5.

**Figura 5**. Restaurando uma base de dados.

Ap�s selecionarmos esta op��o, um widget ser� aberto para que especifiquemos o caminho de onde o arquivo .Tar est� armazenado, como mostra a Figura 6. Por �ltimo, clique em �Restore�, para que a base de exemplo seja preenchida com os dados das tabelas.

**Figura 6**. Selecionando arquivo .Tar.

Unique index (Indice unit�rio)

Com rela��o aos �ndices exclusivos, ou �nicos, estes podem ser criados para qualquer coluna pertencente a tabela, pois eles n�o apenas criam �ndices, mas sim, refor�am com rela��o a exclusividade da coluna. A utiliza��o deste tipo de �ndice se torna vantajoso por quest�es de integridade dos dados e tamb�m por quest�o de desempenho, o que mostra que pesquisas contendo �ndices exclusivos sejam muito mais r�pidas. Para que possamos criar um �ndice exclusivo, temos v�rias maneiras, onde uma delas � utilizando o comando CREATE INDEX UNIQUE, criando uma restri��o exclusiva na tabela, ou tamb�m podendo ser criado como uma chave prim�ria. A seguir, apresentamos como podemos criar um exemplo de �ndice exclusivo utilizando o UNIQUE para a tabela customers, presente na base de dados dvdrental:

CREATE UNIQUE INDEX customer_unique_index ON customer (customer_id);

A forma que apresentamos acima, � uma forma explicita de criarmos um �ndice exclusivo, onde utilizamos a palavra-chave UNIQUE, mas podendo ser criado tamb�m de forma impl�cita apenas declarando uma chave prim�ria para a tabela. Aqui est� um exemplo de uma cria��o impl�cita de um �ndice exclusivo, criando uma chave prim�ria para a tabela. Para demonstrarmos a cria��o do �ndice de forma impl�cita, podemos ver de acordo com a instru��o a seguir:

ALTER TABLE customer ADD CONSTRAINT primary_key UNIQUE (customer_unique);

Com base na instru��o anterior, estamos alterando a tabela e adicionando a ela uma restri��o exclusiva na coluna customer_id da tabela customer, e esta declara��o tamb�m cria implicitamente um �ndice exclusivo. O comando ALTER acrescenta uma restri��o �nica para a coluna customer_id, podendo ser utilizado como uma chave prim�ria.

Expression Index

Os �ndices de express�o s�o �teis para consultas que correspondam a alguma fun��o ou modifica��o dos nossos dados na tabela da base de dados. Dessa forma, temos que o Postgres nos permite indexar os resultados desta fun��o para que as pesquisas sejam mais eficientes, o que por exemplo, pode ocorrer em momentos nos quais temos a inten��o de pesquisar pelo nome do cliente, onde a forma padr�o de realizarmos esta opera��o � a seguinte:

SELECT * FROM customer WHERE LOWER(first_name) LIKE 'kimberly';

Com base na consulta anterior, realizamos uma varredura em cada linha da tabela, realizando a convers�o do primeiro nome para min�scula e em seguida, sendo comparado com "kimberly". Vejamos ent�o a cria��o de uma expression. Index para criar um �ndice na coluna first_name:

CREATE INDEX customer_expression_index ON customer (LOWER(first_name));

Com base no �ndice criado, ser� realizada uma busca na tabela pelos clientes com base no primeiro nome registrado. Como o nome pode ter sido armazenado com letras mai�sculas e min�sculas, for�amos no �ndice a busca pelos nomes sempre min�sculos, o que para isso, � necess�rio a utiliza��o dos �ndices de express�o. Um �ndice de express�o � utilizado apenas quando a express�o exata � utilizada em uma consulta.

�ndices parciais (Partial Indexes)

Quando tratamos de �ndices parciais, temos que este tipo de �ndice abrange apenas um subconjunto de dados pertencentes a tabela, onde est� tem a declara��o de uma cl�usula WHERE. Com isso, temos um aumento na efici�ncia dos �ndices, pois reduzimos o tamanho do conjunto de dados a serem pesquisados. Como simples exemplo, podemos ver a cria��o do �ndice:

CREATE INDEX idx_fk_category_id ON film_category USING btree (film_id) WHERE category_id = 13;

Como pode ser visto na instru��o acima, temos a cria��o de um �ndice que traz um grupo reduzido de informa��es com base no c�digo da categoria informado, devido a utiliza��o da condi��o WHERE.

Gerenciando e mantendo �ndices

Uma das quest�es que n�s, administradores de bancos de dados, precisamos ter em mente � em como devemos lidar com o chamado �ndice de incha�o, ou Index bloat, nas tabelas do banco de dados PostgreSQL. Neste ponto, temos a nossa disposi��o que a arquitetura MVCC (Multi-Version Concurrency Control) do PostgreSQL apresenta uma seguran�a a mais no que diz respeito ao monitoramento e manuten��o das bases de dados, especialmente em sistemas com grande quantidade de registros. Mas o que � o MVCC? Quando falamos de MVCC, estamos nos referindo a um m�todo do PostgreSQL utilizado para lidar com a consist�ncia dos dados quando v�rios processos est�o acessando a mesma tabela.

Por que ocorrem os incha�os?

O MVCC foi escolhido para lidar com as m�ltiplas transa��es e sess�es no PostgreSQL, onde estas ocorrem nas mesmas linhas quase que ao mesmo tempo. Devido a isso, temos como resultado de uma parte espec�fica do MVCC, a ocorr�ncia dos �incha�os�, que � concentrada nas manipula��es de exclus�o e atualiza��o.

No momento que realizamos a exclus�o de uma linha, ela n�o � realmente apagada, mas sim, marcada como indispon�vel para futuras transa��es que ocorrem ap�s a exclus�o, o que tamb�m acontece no momento da atualiza��o dos registros, onde a linha �antiga� � mantida ativa at� que todas as opera��es sejam finalizadas, tornando-a indispon�vel para qualquer outra opera��o. Em seguida, temos o processo de VACUUM que marca as linhas indispon�veis como sendo um espa�o �til para a inser��o de novos registros ou para atualiza��es futuras. No entanto, v�rias s�o as raz�es para a ocorr�ncia dos incha�os, o que precisamos corrigir para termos mais desempenho na base de dados. De certo, o maior causador dos incha�os nas tabelas � o VACUUM, mas ele � um par�metro que pode ser configurado, sendo poss�vel tanto a inativa��o quanto uma configura��o errada. Tendo esse ponto em vista, vejamos as maneiras poss�veis de corrigirmos os �ndices de incha�o.

Realiza��o de dumps e restaura��o

A maneira mais simples de prevenir os incha�os � realizando backups das tabelas utilizando o comando pg_dump, onde ele exclui a tabela e em seguida, recarrega os dados para tabela novamente, por�m, esta � uma opera��o cara.

Utiliza��o do VACUUM

Esta op��o de comando �devolve� o espa�o em disco para o sistema de arquivos, sendo que isto � feito em casos muito espec�ficos. O espa�o utilizado est� contido em arquivos de p�ginas que comp�em as tabelas e �ndices no Postgres. As p�ginas dos arquivos possuem um mesmo tamanho, mas objetos de tamanhos diferentes. No momento da utiliza��o do VACUUM, acontece a marca��o para cada linha em um arquivo de p�gina como sendo indispon�vel, onde o espa�o em disco � devolvido ao sistema de arquivos. A sintaxe do VACUUM � a seguinte:

VACUUM table_name

Ou

VACUUM FULL table_name

No momento em que utilizamos o comando VACUUM com a flag FULL, teremos que todo o espa�o reutiliz�vel ser� devolvido ao sistema de arquivos, com a diferen�a de que dessa forma, ele reescreve completamente a tabela para novas p�ginas de arquivos. Um exemplo de sua utiliza��o pode ser visto a seguir na tabela rental:

VACUUM FULL rental;

Utiliza��o de CLUSTERS

Outra maneira de gerenciarmos o incha�o das tabelas � com a utiliza��o do comando CLUSTER, o qual � utilizado para reordenar fisicamente as linhas com base no �ndice. Quando utilizamos o comando CLUSTER, estamos criando na verdade uma c�pia inicial de toda a tabela, onde a anterior � ent�o descartada. Para utilizarmos o comando CLUSTER, � necess�rio que haja espa�o suficiente em disco, para que a c�pia inicial dos dados seja mantida enquanto a c�pia � criada.a sintaxe b�sica de sua utiliza��o � a seguinte:

CLUSTER table_name USING index_name

Utilizando a reindexa��o

Por fim, temos a reindexa��o, onde quando um �ndice torna-se ineficiente devido ao incha�o, a utiliza��o da reindexa��o passa a ser uma op��o favor�vel para a obten��o de um m�ximo desempenho dos �ndices. a sintaxe utilizada para esse caso � a seguinte:

REINDEX TABLE payment;

Como podemos ver, os �ndices s�o uma maneira comum para a melhoria do desempenho de um banco de dados, onde eles permitem que os servidores de banco de dados encontrem e recuperem linhas espec�ficas de forma muito mais r�pida do que sem a utiliza��o dos �ndices. Ainda assim, os �ndices adicionam ao sistema uma sobrecarga no banco de dados como um todo, o que implica que devemos utiliz�-los de forma sensata. Com isso finalizamos mais este artigo, esperamos que tenham gostado. At� a pr�xima! =)

Links

Confira outros conte�dos:

Por Edson Em 2016