Otimiza��es com �ndices reversos

Ser� desenvolvida uma compara��o de desempenho entre as linguagens para a melhor escolha num ambiente de produ��o. As linguagens tratadas no estudo s�o C, PL/Perl, PL/pgSQL e SQL. Elas podem ser usadas em ambientes Linux, Windows e at� mesmo outras plataformas. A teoria computacional envolvida em �ndices reversos, bem como a motiva��o para sua utiliza��o, � explorada no artigo. Ao final, ser�o realizados testes de desempenho indicando quais as melhores op��es de linguagens quando precisamos realizar consultas, inser��es e atualiza��es utilizando �ndices inversos em bases com grandes volumes de dados.

Introdu��o

Os �ndices reversos, extremamente �teis nos casos de busca por padr�es no final do texto em bancos de dados relacionais (ver Nota 1), nem sempre consistem de solu��es out-of-box. Desde sua vers�o 8i, o Oracle implementa �ndices reversos nativamente. No caso do SGBD PostgreSQL, precisamos implement�-lo manualmente. Este ser� o tema do estudo a seguir: uma proposi��o dos �ndices reversos no PostgreSQL equivalente ao existente no Oracle.

Nota 1. �ndice Reverso

Um �ndice reverso, comparado a um �ndice convencional, inverte os bytes da chave a ser indexada. Ele � particularmente interessante no caso de uma coluna de tabela conter valores de texto que comumente apresentam um longo prefixo.

Por exemplo, em uma tabela destinada a armazenar Ordens de Servi�o, a coluna chave pode possuir uma forma padronizada com 12 caracteres. O primeiro documento do ano 2008 � indicado com �OS-200800001�, o segundo com �OS-200800002�, e assim por diante. At� a tabela atingir alguns milh�es de registros, os primeiros sete caracteres ser�o redundantes e n�o trar�o muita contribui��o �s buscas indexadas. Um �ndice reverso armazenaria estes c�digos na ordem inversa, isto �, como �100008002-SO�, �200008002-SO�, �300008002-SO�, e assim por diante. Com isso, ele permite que o �ltimo caractere da chave, mais altamente vari�vel, espalhe os valores entre as estruturas de dados do �ndice. Tal procedimento aumenta consideravelmente o desempenho no momento da busca.

Os �ndices reversos permitem acelerar as buscas SQL do tipo �WHERE coluna LIKE "%texto"�. Neste caso, por padr�o o SGBD realiza uma varredura seq�encial (tamb�m conhecida como �sequential scan� � ver Nota DevMan 1) na tabela em quest�o, o que compromete seriamente o desempenho de uma aplica��o. Para resolver isso, podemos emular um �ndice reverso atrav�s de uma fun��o de invers�o de textos (ou strings) aliada a um �ndice sobre esta mesma fun��o.

1. Varredura de Tabela Seq�encial � Sequential Table Scan.

Uma varredura de tabela seq�encial, ou apenas varredura seq�encial, � um processo que l� todas as linhas em todas as p�ginas de uma tabela que est�o armazenadas em um banco de dados.

Varreduras seq�enciais surgem no plano curto e longo como correlation_name <seq>, onde correlation_name � o nome da correla��o especificado na cl�usula FROM, ou ent�o o nome da tabela caso nenhum nome tenha sido especificado.

Este tipo de varredura � usado quando o banco de dados �acredita� que a maioria das p�ginas da tabela possui uma linha que atinja �s condi��es de busca definida na query ou ent�o quando um �ndex adequado n�o est� definido.

Apesar de a varredura seq�encial poder ler mais p�ginas que varredura por �ndice, a carga de I/O no disco pode ser substancialmente menor, pois as p�ginas s�o lidas a partir de blocos cont�nuos provenientes do disco (esta melhoria de desempenho s� � melhor se o arquivo com o banco de dados n�o est� fragmentado no disco). I/O seq�encial minimiza a sobrecarga devido � lat�ncia do movimento rotacional do cabe�ote do disco. Para tabelas com grande volume de dados, varredura seq�encial tamb�m l� grupos de muitas p�ginas ao mesmo tempo. Isto reduz ainda mais o custo de varreduras seq�enciais em rela��o � varredura por �ndices.

Apesar de varreduras seq�enciais poderem levar menos tempo que varredura por �ndice que encontra muitas linhas, elas tamb�m podem explorar a cache de forma t�o eficiente quanto a varredura por �ndice caso a varredura seja executada muitas vezes. Visto que varreduras por �ndice acessam provavelmente uma quantidade menor de p�ginas, � mais prov�vel que as p�ginas estejam dispon�veis em cache, o que resultar� em um acesso mais r�pido. Por causa disto, � muito melhor ter uma varredura por �ndice para acessos de tabelas que s�o repetidos, tais como direito de um JOIN recursivo j� armazenado em cache.

No artigo �Garantindo desempenho com o operador LIKE�, publicado na edi��o 52 da SQL Magazine, foi proposta a fun��o reverse() em linguagem PL/Perl com o objetivo de inverter uma cadeia de caracteres (string) especificada.

Tal implementa��o, apesar de completamente funcional, tinha o principal defeito de ser lenta, penalizando assim gravemente o desempenho durante as grava��es (INSERT e UPDATE) na tabela. Al�m disso, a cada atualiza��o � necess�ria uma chamada a essa fun��o para que o �ndice funcional seja devidamente atualizado. Isso � observado particularmente durante a cria��o do �ndice.

Sempre soubemos que c�digos bin�rios escritos na linguagem C tendem a ser muito mais r�pidos do que outras linguagens, especialmente se estas �ltimas forem interpretadas (como Perl ou Python) ou pseudo-interpretadas (como Java). Na se��o seguinte, construiremos uma fun��o em linguagem C para ser utilizada no PostgreSQL para podermos efetuar os estudos comparativos.

Implementando em linguagem C

Por que enfrentar o terr�vel e cruel mundo da linguagem C para escrever uma simples fun��o procedural no PostgreSQL, quando podemos fazer a mesma coisa em uma linguagem bem mais simples e segura como a PL/pgSQL?

Existem diversas respostas para essa quest�o:

Uma fun��o em linguagem C permite proteger o c�digo-fonte. Lembre-se de que n�o existem, at� a vers�o 8.3 do PostgreSQL, meios de se criptografar o c�digo do corpo de uma fun��o em PL/pgSQL.
Se houver necessidade de se criar de um tipo de dados pr�prio, a utiliza��o de fun��es escritas em C � obrigat�ria.
A satisfa��o de se conhecer um pouco melhor o funcionamento interno do SGBD PostgreSQL e poder tirar proveito disso em outras ocasi�es.
O problema da velocidade geralmente � o fator determinante para a reescrita de uma fun��o codificada em linguagem procedural interpretada em linguagem compilada.

N�o espere um ganho significativo de velocidade para as requisi��es SQL de sele��o (SELECT) utilizando a nova fun��o. Por outro lado, as opera��es de grava��o (sobretudo INSERT e UPDATE) podem ser fortemente auxiliadas. Ainda assim, isso ainda n�o se tornar� evidente para uma opera��o unit�ria, mas durante opera��es de escrita em massa, como carga massiva de dados, altera��es de muitas linhas ao mesmo tempo ou pela simples cria��o do �ndice funcional.

Portanto, neste �ltimo caso a op��o de se reescrever em linguagem C torna-se altamente aconselh�vel.

A extensibilidade do PostgreSQL ap�ia-se sobre seus mecanismos de carregamento din�mico de bibliotecas do sistema operacional. Tratam-se de Dynamic Link Libraries (DLLs) no Windows e Shared Objects (SOs) no Linux e UNIX. A interface de programa��o � relativamente simples, bastando apenas conhecer determinados pontos-chaves.

No presente estudo utilizaremos o PostgreSQL vers�o 8.3 hospedado no sistema operacional Debian GNU/Linux. Para dar andamento, baixe o c�digo-fonte do PostgreSQL atrav�s do endere�o FTP http://www.postgresql.org/ftp/source/v8.3.3/.

Ap�s fazer download do arquivo BZ2, extraia os diret�rios e arquivos do c�digo-fonte para o diret�rio /usr/src e conceda as devidas permiss�es ao seu usu�rio conforme exibido na Listagem 1. Note que isso precisa ser feito com o super-usu�rio (root).

Listagem 1. Extra��o dos arquivos do c�digo-fonte do PostgreSQL.


$ su

# tar xvjf postgresql-8.3.3.tar.bz2 �C /usr/src

# chown �R postgres: /usr/src/postgresql/src

Em seguida, crie um diret�rio para o projeto e utilize-o para armazenar os arquivos a serem criados na seq��ncia, conforme ilustrado na Listagem 2.

Listagem 2. Cria��o do diret�rio e arquivos para a fun��o em C.


$ cd /usr/src/postgresql/src

$ mkdir reverse

$ cd reverse

$ touch Makefile reverse.sql.in unreverse.sql reverse.c

Os arquivos rec�m-criados devem ser modificados conforme as listagens a seguir com o editor de texto de sua prefer�ncia. O primeiro deles, o Makefile, tem a fun��o de definir as regras para a compila��o e linkagem da biblioteca SO referente ao m�dulo externo a ser criado, al�m da gera��o autom�tica de arquivos de script SQL para instala��o e desinstala��o da fun��o no banco de dados. A Listagem 3 traz o conte�do do Makefile.

Listagem 3. Conte�do do arquivo Makefile.


MODULES = reverse

DATA_built = reverse.sql

DATA = unreverse.sql

PGXS := $(shell pg_config pgxs)

include $(PGXS)

O segundo arquivo, reverse.sql.in, serve apenas de modelo (ou template) para a cria��o do arquivo reverse.sql que conter� o script final para a instala��o do m�dulo num banco de dados do PostgreSQL. Esse script � gerado a partir do template com a substitui��o da string MODULE_PATHNAME pelo caminho completo do arquivo objeto compilado. O conte�do do arquivo reverse.sql.in est� ilustrado na Listagem 4.

Listagem 4. Conte�do do arquivo reverse.sql.in.


SET search_path = public;

 

CREATE OR REPLACE FUNCTION reverse(varchar)

RETURNS varchar AS "MODULE_PATHNAME", "reverse"

LANGUAGE "C" IMMUTABLE STRICT;

Note que o script reverse.sql poder� apenas ser executado por um usu�rio do PostgreSQL com direitos de administrador, pois fun��es C s�o consideradas n�o-confi�veis e sendo assim s�o de responsabilidade de um administrador.

O arquivo referente ao script de desinstala��o do m�dulo, unreverse.sql, � o mais simples de todos. Ele apenas exclui a fun��o reverse() do banco de dados e tem o conte�do exibido na Listagem 5.

Listagem 5. Conte�do do arquivo unreverse.sql.


SET search_path = public;

 

DROP FUNCTION reverse(varchar);

Lembre-se de que uma fun��o pode apenas ser exclu�da do banco de dados caso ela n�o esteja associada a nenhum outro objeto, como um �ndice funcional ou constraints de uma tabela.

Finalmente, vamos ao c�digo-fonte em linguagem C da fun��o reverse(). A Listagem 6 ilustra o conte�do do arquivo reverse.c.

Listagem 6. Conte�do do arquivo reverse.c.


// cabe�alhos necess�rios

#include "pg_config.h"

#include "postgres.h"

#include "fmgr.h"

#include "mb/pg_wchar.h"

#include "utils/elog.h"

 

// defini��o da assinatura m�gica

#ifdef PG_MODULE_MAGIC

PG_MODULE_MAGIC;

#endif

 

// defini��o da fun��o reverse()

Datum reverse(PG_FUNCTION_ARGS);

 

#ifndef SET_VARSIZE

#define SET_VARSIZE(n,s) VARATT_SIZEP(n) = s;

#endif

 

// corpo da fun��o reverse()

PG_FUNCTION_INFO_V1(reverse);

Datum reverse(PG_FUNCTION_ARGS)

{

int len, pos = 0;

VarChar *str_out, *str_in;

 

// obter endere�o do argumento

str_in = PG_GETARG_VARCHAR_P_COPY(0);

 

// calcular o tamanho da string em bytes

len = (int) (VARSIZE(str_in) VARHDRSZ);

 

// criar uma string vazia de mesmo tamanho

str_out = (VarChar *) palloc(VARSIZE(str_in));

 

// a resultante ter� o mesmo comprimento

SET_VARSIZE(str_out, VARSIZE(str_in));

 

// verificar se a codifica��o da string no

// argumento concorda com a codifica��o do BD

pg_verifymbstr(VARDATA(str_in), len, false);

 

// copiar a string do modo inverso

while (pos < len)

{

int charlen = pg_mblen(VARDATA(str_in) + pos);

int i = charlen;

while (i--)

*(VARDATA(str_out) + len - charlen + i - pos) = *(VARDATA(str_in) + i + pos);

pos = pos + charlen;

}

PG_FREE_IF_COPY(str_in, 0);

 

// retorna a c�pia (resultante)

PG_RETURN_VARCHAR_P(str_out);

}

Para maiores detalhes sobre a implementa��o da fun��o reverse() e para conhecer outras funcionalidades ao se utilizar a linguagem C, recomenda-se a leitura da documenta��o �Fun��es em Linguagem C� (http://developer.postgresql.org/pgdocs/postgres/xfunc-c.html). A leitura dos arquivos de cabe�alho (extens�es .h) utilizados no c�digo-fonte tamb�m permite uma melhor compreens�o suplementar sobre as estruturas de dados utilizadas.

A seguir, iremos dar in�cio � constru��o do m�dulo no PostgreSQL atrav�s do utilit�rio make (por isso � necess�ria a cria��o do arquivo Makefile). Execute os comandos exibidos na Listagem 7.

Listagem 7. Constru��o do m�dulo atrav�s do comando make.


$ cd /usr/src/postgresql/src

$ make

Note que nesta �ltima opera��o o compilador C da GNU (gcc) � invocado com in�meros argumentos e ao final do processo um arquivo com a extens�o .SO � gerado. Este � o produto final: o m�dulo do PostgreSQL contendo o bin�rio para a execu��o da fun��o reverse().

Resta ainda copiar estes arquivos criados automaticamente para o diret�rio de instala��o do PostgreSQL. Para fazer isso, simplesmente execute os comandos ilustrados na Listagem 8. Note que � preciso ter direitos de super-usu�rio para copiar os arquivos para os locais definitivos.

Listagem 8. Instala��o do m�dulo atrav�s do comando make install.


$ cd /usr/src/postgresql/src

$ su

# make install

Veja que esta �ltima opera��o n�o � obrigat�ria, mas apenas recomendada. Podemos, durante a instala��o de um m�dulo no PostgreSQL, definir o caminho absoluto onde o arquivo .SO se encontra no sistema de arquivos, desde que o usu�rio postgres (geralmente o dono do servi�o no Linux) tenha direitos de acesso a este local alternativo. Sendo assim, basta indicar no script de instala��o reverse.sql a localiza��o da biblioteca reverse.so.

Para testar o funcionamento da biblioteca, crie um banco de dados no PostgreSQL atrav�s da instru��o CREATE DATABASE e em seguida execute o script de instala��o reverse.sql nele. As respectivas instru��es est�o contidas na Listagem 9. Observe que estes comandos precisam ser executados pelo super-usu�rio do banco de dados, normalmente chamado postgres no sistema operacional.

Listagem 9. Cria��o de banco de dados e instala��o do m�dulo nele.


$ su � postgres

$ createdb sqlmag8

$ psql sqlmag8 �i reverse.sql

Feito isso, inicie a ferramenta PgAdmin III e selecione o banco de dados rec�m-criado. Abra a janela Query Analyzer e execute a instru��o SQL contida na Listagem 10.

Listagem 10. Teste de utiliza��o da fun��o reverse( ) escrita em linguagem C.


SELECT reverse("Fun��es em C s�o mais r�pidas");

----

>> sadip�r siam o�s C me se��nuF

Se quis�ssemos desinstalar o m�dulo do banco de dados, bastaria executar o script unreverse.sql, tal como exemplificado na Listagem 11. Observe que estes comandos precisam ser executados pelo super-usu�rio do banco de dados, normalmente chamado postgres no sistema operacional.

Listagem 11. Desinstala��o do m�dulo no banco de dados.


$ su � postgres

$ psql sqlmag8 �i unreverse.sql

Pronto! Conseguimos atingir o primeiro objetivo do estudo: criar uma fun��o procedural em linguagem C para ser utilizada como uma extens�o do PostgreSQL. Resta ainda efetuar os testes comparativos de desempenho com outras linguagens, especialmente as interpretadas. Este ser� o tema da se��o a seguir.

As outras implementa��es

Para os testes comparativos, criaremos cinco fun��es id�nticas � reverse(), mas que sigam diferentes abordagens utilizando as seguintes linguagens procedurais no PostgreSQL: PL/Perl, PL/Python, PL/pgSQL e SQL.

Antes de qualquer coisa, devemos habilitar a cria��o de fun��es com essas linguagens no banco de dados. Isso � feito atrav�s da instru��o CREATE LANGUAGE e somente pode ser executado pelo super-usu�rio do banco de dados, pois algumas dessas linguagens s�o consideradas n�o-confi�veis (untrusted). A Listagem 12 cont�m os comandos para as instala��es, respectivas, das linguagens PL/pgSQL, PL/Perl e PL/Python.

Listagem 12. Instala��o das linguagens procedurais no banco de dados.


CREATE LANGUAGE plpgsql;

CREATE LANGUAGE plperl;

CREATE LANGUAGE plpython;

No PgAdmin III, clique com o bot�o direito no banco de dados, e em seguida na op��o Refresh. Abra o n� Linguagens e confira se as linguagens foram habilitadas com sucesso.

Em seguida, vamos criar as fun��es para os testes. Na primeira abordagem, utilizaremos a linguagem procedural PL/Perl, que possui a sintaxe da linguagem interpretada Perl, muito difundida durante o surgimento das aplica��es para a Internet aliada � tecnologia CGI (Common Gateway Interface). Veja na Listagem 13 a instru��o SQL para a cria��o dessa nova fun��o, a ser chamada de reverse2(). Repare como o corpo da fun��o, ou seja, o c�digo-fonte essencial fica extremamente enxuto na linguagem Perl.

Veja na documenta��o oficial do PostgreSQL maiores detalhes em como escrever fun��es usando a PL/Perl.

Listagem 13. Cria��o da fun��o reverse2() utilizando a linguagem PL/Perl.


CREATE OR REPLACE FUNCTION reverse2(varchar)

RETURNS varchar AS $$

return reverse $_[0];

$$ LANGUAGE plperl IMMUTABLE STRICT;

Ap�s isso, partiremos para outra linguagem interpretada muito conhecida por usu�rios Linux: o Python. A linguagem procedural correspondente no PostgreSQL � a PL/Python. Execute as instru��es contidas na Listagem 14 para a cria��o da fun��o reverse3() em linguagem PL/Python.

Tal como em Perl, a fun��o reverse() escrita em Python fica ligeiramente simples. Veja na documenta��o oficial do PostgreSQL maiores detalhes em como escrever fun��es usando a PL/Python.

Listagem 14. Cria��o da fun��o reverse3() utilizando a linguagem PL/Python.


CREATE OR REPLACE FUNCTION reverse3(varchar)

RETURNS varchar AS $$

return args[0][::-1];

$$ LANGUAGE plpython IMMUTABLE STRICT;

A seguir, escolheremos a linguagem procedural default do PostgreSQL: a PL/pgSQL (equivalente � PL/SQL do Oracle ou � TransactSQL no SQL Server). Desta vez seguiremos duas abordagens distintas com essa mesma linguagem. A primeira abordagem, a fun��o reverse4(), � apresentada na Listagem 15 e trata-se de um la�o de repeti��o FOR invertido para a montagem do texto de retorno.

Listagem 15. Cria��o da fun��o reverse4() utilizando a linguagem PL/pgSQL.


CREATE OR REPLACE FUNCTION reverse4(varchar)

RETURNS varchar AS $$

DECLARE

len int := length($1);

ret varchar := "";

BEGIN

FOR ii IN REVERSE len..1 LOOP

ret = ret || substring($1 FOR 1 FROM ii);

END LOOP;

RETURN ret;

END

$$ LANGUAGE plpgsql IMMUTABLE STRICT;

J� na segunda vers�o, chamada de reverse5(), o conceito de recursividade � explorado na linguagem PL/pgSQL. A Listagem 16 traz o os comandos para a cria��o desta outra fun��o. Note que, apesar de parecer mais enxuta e econ�mica que a reverse4(), a fun��o reverse5() traz consigo a complexidade de um procedimento recursivo. Veja na documenta��o oficial do PostgreSQL maiores detalhes em como escrever fun��es usando a PL/pgSQL.

Listagem 16. Cria��o da fun��o reverse5() utilizando a linguagem PL/pgSQL.


CREATE OR REPLACE FUNCTION reverse5(varchar)

RETURNS varchar AS $$

BEGIN

IF length($1) > 1 THEN

RETURN reverse5(substr($1,2)) || substr($1,1,1);

ELSE

RETURN $1;

END IF;

END

$$ LANGUAGE plpgsql IMMUTABLE STRICT;

Para finalizar, escreveremos uma �ltima fun��o utilizando a simples linguagem SQL. Atrav�s do conceito de manipula��o de arrays no PostgreSQL e com a ajuda das respectivas fun��es de suporte, criaremos a fun��o reverse6(). O c�digo-fonte desta �ltima est� ilustrado na Listagem 17. Veja na da documenta��o oficial do PostgreSQL maiores detalhes em como escrever fun��es usando a SQL.

Listagem 17. Cria��o da fun��o reverse6() utilizando a linguagem SQL.


CREATE OR REPLACE FUNCTION reverse6(varchar)

RETURNS varchar AS $$

SELECT array_to_string(array(

  SELECT substring($1, s.i, 1)

  FROM generate_series(length($1),1,1) AS s(i) ),"");

$$ LANGUAGE sql IMMUTABLE STRICT;

Podemos agora testar a execu��o de todas as fun��es rec�m-criadas de uma s� vez atrav�s da instru��o SQL contida na Listagem 18. O resultado da execu��o de todas as fun��es deve ser o mesmo: a string inversa �fed cba�.

Listagem 18. Teste de execu��o de todas as fun��o do tipo reverse().


SELECT reverse("abc def"), reverse2("abc def"), reverse3("abc def"), reverse4("abc def"),

reverse5("abc def"), reverse6("abc def");

 

>> fed cba, fed cba, fed cba, fed cba, fed cba, fed cba,

Agora que possu�mos a fun��o reverse() em linguagens procedurais distintas, podemos iniciar os testes de desempenho para analisarmos quais as abordagens mais adequadas para usarmos em situa��es onde a velocidade de atualiza��o � um fator cr�tico no banco de dados. Este ser� o tema da se��o a seguir.

Benchmark das linguagens procedurais

O primeiro passo para se realizar o benchmark das linguagens procedurais � criar o ambiente de testes. Quanto maior o porte deste ambiente, mais precisos ser�o os resultados comparativos. Isto �, se a base de dados utilizada para os testes for muito pequena, poderemos n�o perceber as diferen�as no desempenho de cada uma das fun��es.

Uma sugest�o � criar um banco de dados contendo a lista de palavras de um dicion�rio. No Linux, podemos extrair as palavras de um verificador ortogr�fico como o myspell. Primeiramente, execute uma instru��o de busca como find ou locate para descobrir a localiza��o exata do arquivo DIC. Cada linha deste arquivo, que � do formato texto, cont�m uma palavra v�lida para o dicion�rio em quest�o. A Listagem 19 traz um exemplo de utiliza��o do pacote mlocate para a busca do arquivo de dicion�rio. Observe que o primeiro comando, updatedb, precisa ser executado por um usu�rio com poderes de administrador, geralmente o root.

Listagem 19. Busca do arquivo de dicion�rio no Linux.


# updatedb

$ locate .dic | grep spell

Na distribui��o de Linux usada no estudo, um dos arquivos foi encontrado no endere�o /usr/share/myspell/dicts/pt-BR.dic. Ele possu�a cerca de 5 MB de tamanho e mais de 300 mil linhas. Trata-se do dicion�rio em l�ngua portuguesa do Brasil usado em corre��es ortogr�ficas em editores de texto. Arquivos desse tipo s�o facilmente encontrados na Internet e geralmente acompanham aplica��es como editores de texto em su�tes de escrit�rio.

O que faremos na seq��ncia � importar todas as linhas desse arquivo de texto para o banco de dados PostgreSQL, na forma de registros de uma tabela. Antes disso, precisamos tratar os dados. Abra o arquivo pt-BR.dic num editor de textos qualquer do Linux, como vi ou Kwrite. Veja o resultado na Figura 1.

**Figura 1.** Conte�do do arquivo pt-BR.dic.

Analisando o seu conte�do, percebemos que a primeira linha do arquivo de texto cont�m a quantidade de palavras no pr�prio arquivo. Al�m disso, podemos notar que geralmente cada linha do arquivo cont�m uma palavra do dicion�rio seguida de uma barra e uma determinada codifica��o, que n�o nos interessa nesse estudo. Execute ent�o a instru��o contida na Listagem 20 para tratar o arquivo texto para ser importado futuramente.

Listagem 20. Tratamento dos dados a serem importados no Linux.


$ sed �e "1d" �e "s/\r//" �e "s/^\(.*\)\/.*/\1/" \ /usr/share/myspell/dicts/pt-BR.dic > dict.dat

O comando que acabamos de executar atrav�s do utilit�rio SED cria um outro arquivo de texto chamado dict.dat. Este novo arquivo conter� todas as linhas do arquivo pt-BR.dic, excetuando-se a primeira, e em cada linha s� haver� a palavra sem os c�digos adicionais. Quebras de linha do tipo Windows, CR+LF, ser�o substitu�das por apenas LF, o padr�o do Linux. Verifique com um editor de textos o resultado obtido neste arquivo. Veja na Figura 2 o resultado.

**Figura 2.** Conte�do gerado para o arquivo dict.dat.

Vamos agora criar a tabela no banco de dados para armazenar a lista de palavras do dicion�rio. No pgAdmin III, execute a instru��o SQL contida na Listagem 21. O tipo de dados serial em PostgreSQL � na verdade um alias para um inteiro (int ou int4) vinculado a uma seq��ncia, ou seja, o campo id ser� um auto-incremento.

Listagem 21. Cria��o da tabela DICT para armazenar palavras do dicion�rio.


CREATE TABLE dict (

id serial PRIMARY KEY,

word varchar

);

Em seguida, atrav�s da linha de comando do Linux, execute as instru��es da Listagem 22. Isso far� com que as palavras presentes no arquivo de texto dict.dat sejam definitivamente importadas para a tabela DICT que acabamos de criar no PostgreSQL. No exemplo, sqlmag8 refere-se ao nome do banco de dados utilizado nos testes (criado na Listagem 9).

Listagem 22. Importa��o dos dados do arquivo de texto dict.dat para a tabela DICT no PostgreSQL.


$ (echo "copy dict (word) from stdin;"; cat dict.dat) |\ psql sqlmag8

Verifique o conte�do da tabela DICT atrav�s das instru��es SQL da Listagem 23. A primeira executa a contagem de registros na tabela e a segunda exibe as primeiras 100 linhas desta, que devem ser coincidentes com o arquivo de texto dict.dat. O resultado � ilustrado na Figura 3.

Listagem 23. Verificando o conte�do da tabela DICT.


--contagem total das linhas

SELECT count(1) FROM dict;

 

--verifica��o do conte�do da tabela

SELECT id, word FROM dict LIMIT 100;

**Figura 3.** Resultado da segunda consulta apresentada na Listagem 23.

Agora que possu�mos uma tabela com um volume razo�vel, com um pouco mais de 300 mil registros, podemos realizar o benchmark das linguagens procedurais.

Atrav�s das instru��es SQL contidas na Listagem 24 criaremos os �ndices reversos vinculados a cada uma das fun��es do tipo reverse().

Listagem 24. Cria��o dos �ndices reversos da tabela DICT.


-- linguagem C

CREATE INDEX dict_ix1 ON dict (

reverse(word) varchar_pattern_ops);

 

-- linguagem PL/Perl

CREATE INDEX dict_ix2 ON dict (

reverse2(word) varchar_pattern_ops);

 

-- linguagem PL/Python

CREATE INDEX dict_ix3 ON dict (

reverse3(word) varchar_pattern_ops);

 

-- linguagem PL/pgSQL

CREATE INDEX dict_ix4 ON dict (

reverse4(word) varchar_pattern_ops);

 

-- linguagem PL/pgSQL

CREATE INDEX dict_ix5 ON dict (

reverse5(word) varchar_pattern_ops);

 

-- linguagem SQL

CREATE INDEX dict_ix6 ON dict (

reverse6(word) varchar_pattern_ops);

Para testar o funcionamento do �ndice que utiliza a fun��o reverse(), escrita em linguagem C, basta executar a instru��o SQL da Listagem 25. Com esta requisi��o s�o retornadas rapidamente as palavras do dicion�rio que sejam finalizadas pelo texto �escola�. Sem o �ndice, o tempo de resposta poderia ser efetivamente desastroso para o servidor de banco de dados.

Listagem 25. Utiliza��o da fun��o reverse() em �ndice da tabela DICT.


SELECT *

FROM dict

WHERE reverse(word) LIKE reverse("%escola")

ORDER BY id;

Veja na Figura 4 o resultado obtido com a instru��o SQL. Observe que a fun��o reverse() est� presente em ambos os lados do operador LIKE. Podemos fazer o teste com as demais fun��es com a simples substitui��o no texto da instru��o SQL pelos nomes reverse2, reverse3, e assim por diante. Com isso, teremos uma id�ia da diferen�a no desempenho entre as diferentes linguagens procedurais.

**Figura 4.** Utilizando a fun��o reverse().

Agora que os �ndices reversos foram definidos na tabela DICT, podemos for�ar a recria��o de cada um deles atrav�s da instru��o de DDL contida na Listagem 26. Execute os comandos REINDEX individualmente, e em cada invoca��o observe a dura��o do processo. Este tempo definir� qu�o otimizada a fun��o em quest�o �, uma vez que ela ser� chamada neste teste pelo menos 300 mil vezes durante a recria��o do �ndice.

Listagem 26. Recria��o dos �ndices reversos da tabela DICT.


-- linguagem C

REINDEX INDEX dict_ix1;

 

-- linguagem PL/Perl

REINDEX INDEX dict_ix2;

 

-- linguagem PL/Python

REINDEX INDEX dict_ix3;

 

-- linguagem PL/pgSQL

REINDEX INDEX dict_ix4;

 

-- linguagem PL/pgSQL

REINDEX INDEX dict_ix5;

 

-- linguagem SQL

REINDEX INDEX dict_ix6;

No melhor caso, como esperado, o �ndice baseado na fun��o em linguagem C foi recriado em 3,5s. Em PL/Perl levou 6,4s e em PL/Python 5,5s. Os piores casos foram registrados com as linguagens PL/pgSQL, com 10 s (com loop) e 18 s (recursiva), e na linguagem SQL com 14s.

Apesar de termos tido uma boa id�ia sobre o desempenho das fun��es em cada linguagem, podemos estar fazendo aproxima��es grosseiras devido a outros fatores envolvidos no sistema gerenciador de banco de dados.

Uma das fundamentais diferen�as reside num conceito extremamente importante no SGBD: o cache das informa��es. A tabela DICT usada previamente nos testes, apesar de conter mais de 300 mil linhas, possui apenas 13 MB de tamanho em disco. Seus �ndices, por sua vez, ocupam apenas 47 MB (vide Figura 5). Com isso, bastam 60 MB de espa�o para armazenar todas estas estruturas completamente em mem�ria. Lembre-se tamb�m que a cl�usula IMMUTABLE na cria��o das fun��es faz com que os resultados das chamadas a elas sejam tamb�m sujeitos a algoritmos de caching.

**Figura 5.** Informa��es sobre a tabela usada como exemplo.

Por estas raz�es, � preciso aplicar os procedimentos de cria��o de �ndices reversos em uma tabela com maior volume de dados num servidor PostgreSQL otimizado e num ambiente pr�ximo ao de produ��o para mensurar as reais diferen�as entre as abordagens.

Esse teste foi realizado com uma tabela contendo cerca de 10,5 milh�es de linhas de uma base de dados real de um cadastro de pessoas. Os �ndices reversos foram criados no campo contendo o nome completo de cada indiv�duo. Uma poderosa aplica��o deste conceito � que com instru��es SQL semelhantes � da Listagem 25 podemos efetuar buscas de pessoas pelo sobrenome. E como agora o volume da tabela e �ndices passa a ser de grande porte (cerca de 2,5 GB ao total), a influ�ncia do mecanismo de cache � minimizada consideravelmente.

A Tabela 1 foi montada com base em m�dias de medi��es de tempo em sucessivas execu��es da instru��o REINDEX em cada uma das fun��es do tipo reverse() nessa base de dados de pessoas.

Linguagem	Fun��o	Tempo Decorrido (segundos)	Rela��o com a Linguagem C (em %)
C	reverse()	11,37s	-
Perl	reverse2()	85,97s	756% acima
PL/Python	reverse3()	58,89s	518% acima
PL/pgSQL	reverse4()	218,18s	1919% acima
PL/pgSQL	reverse5()	546,62s	4807% acima
SQL	reverse6()	311,77s	2742% acima

Tabela 1. Tempos de resposta obtidos em cada fun��o.

As mesmas informa��es s�o apresentadas no formato de gr�fico, em unidade de segundos, na Figura 6.

**Figura 6.** Compara��o dos tempos decorridos em segundos em cada abordagem.

A abordagem em linguagem C foi simplesmente esmagadora: chegou a ser de 5 a 48 vezes mais r�pida que as demais. As fun��es em linguagens PL/pgSQL e SQL revelaram-se as piores no quesito desempenho, especialmente a reverse5(), que implementa a recursividade. As linguagens interpretadas Perl e Python ficaram mais pr�ximas do resultado ideal com a linguagem C.

Conclus�es

Neste artigo foram apresentadas t�cnicas de otimiza��es em consultas usando o SGBD PostgreSQL usando �ndices reversos. Vimos que uma fun��o customizada respons�vel pela invers�o de strings pode ser desenvolvida de in�meras maneiras e utilizando as v�rias linguagens procedurais dispon�veis no PostgreSQL, tendo o mesmo resultado final. Quando a performance � um fator decisivo, percebemos a partir de testes realizados que as linguagens C (principalmente), PL/Phyton e PL/Perl s�o as que apresentam, respectivamente, os melhores desempenho em consultas e cria��es de �ndices, o que nos d� um bom indicador para quando precisamos levar em considera��o o desempenho final da aplica��o.

Quando olhamos para a simplicidade de codifica��o de cada uma das linguagens utilizadas, exclusivamente no caso da fun��o reverse(), as linguagens PL/PERL e PL/Phyton foram as fun��es mais simples de serem implementadas, o que pode ser observado pela complexidade dos c�digos descritos nas Listagens 13 e 14. A complexidade da linguagem SQL (Listagem 17) tamb�m � baixa, comparada com as demais linguagens utilizada. Assim, � necess�rio fazer uma an�lise a respeito de �desempenho x complexidade� quando formos construir uma fun��o a ser utilizada pelo PostgreSQL. Como a implementa��o da fun��o � realizada em um �nico momento, enquanto que a sua execu��o � feita milhares de vezes, acredita-se que possa valer a pena investir um pouco mais de esfor�o na codifica��o da fun��o com o prop�sito de usufruir de um melhor desempenho do banco de dados.