IMPLEMENTA��O DE �NDICES TEXTUAIS (FULL-TEXT SEARCH) NO IBM DB2

I. Introdu��o

A pesquisa integral (full-text search) consiste na t�cnica de cria��o de �ndices que examinam todas as palavras em uma base de documentos e tentam encontrar a palavra informada pelo usu�rio. Esse tipo de implementa��o est� dispon�vel em diversos bancos de dados e sofwares. Algumas p�ginas de busca na internet tamb�m utilizam essa t�cnica de pesquisa.

Como buscar palavras em um n�mero grande de documentos pode gerar um problema de performance na aplica��o, as ferramentas que implementam full-text search s�o usadas para minimizar ou solucionar esse problema.

A. Conceitos

O full-text � respons�vel por indexar e fazer a pesquisa.

A etapa da indexa��o vai escanear o texto de todos os documentos e montar uma lista de termos procurados. Na etapa de busca, atrav�s de uma query, apenas o �ndice � referenciado para encontrar o texto nos documentos originais.

Quando a busca por palavras atrav�s de um �ndice full-text retorna itens irrelevantes, a solu��o est� na defini��o de tags nos documentos onde est�o as ambiguidades, para que sejam eliminadas, embora isso possa deixar de retornar dados que s�o mesmo relevantes. Vamos ver essa situa��o mais adiante.

B. Como funciona

O DB2 possui uma funcionalidade chamada DB2 Text Search que aplica pesquisa de texto integral usando cl�usulas especiais nas queries. O DB2 9 tem suporte ao armazenamento de documentos XML. Ele usa uma linguagem chamada XQuery para acessar dados em XML. Essa linguagem � padronizada pelo W3C e possui uma variedade de express�es para navegar e efetuar buscas em documentos XML. Como funciona? Uma fun��o chamada contains() recebe sub-strings e busca por termos que correspondam aos par�metros informados. Se encontrar, retorna o valor true. Por exemplo:

db2 => XQuery contains("Cria��o de �ndices", "ice")

Embora o usu�rio busque pelo termo �ice�, resultados para ��ndices� e assim por diante, tamb�m s�o devolvidos pela fun��o, ou seja, a pesquisa pode trazer resultados que ele n�o est� procurando. E tamb�m n�o existe um padr�o para incluir par�metros em pesquisas textuais.

Para buscar nessas estruturas onde a XQuery n�o traz resultados precisos, o DB2 permite a implementa��o de pesquisa em texto integral (full-text search), a cria��o e administra��o de �ndices. Atrav�s deles � poss�vel buscar palavras ou frases em documentos com estrutura XML com a efici�ncia que a linguagem XQuery n�o consegue prover em determinadas situa��es. A cria��o e manuten��o desses �ndices podem ser feitas pelo centro de controle do DB2.

O DB2 implementa a busca em texto integral com a ferramenta DB2 Net Search Extender (NSE). Quando inicia a busca em um documento XML, ele considera a estrutura do documento, �rvores e sub-�rvores, para buscar o termo espec�fico. Assim como a fun��o XQuery contains(), NES usa um �ndice textual baseado em termos relevantes que s�o extra�dos dos documentos (sequencialmente, de prefer�ncia) e armazenados em uma coluna de uma tabela no banco de dados. No caso de documentos XML, leva-se em conta a localiza��o do termo na estrutura do documento.

C. Implementando pesquisa de texto integral no IBM DB2

A implementa��o de pesquisa textual no IBM DB2 pode ser divida em duas etapas: tarefas administrativas e pesquisa em texto integral.

a) Tarefas administrativas

Vamos usar a tabela abaixo como exemplo:

                    create table produto (                         codigo varchar(10) primary key not null,                       descricao xml,                       comentarios xml  );

 

               Perceba
que o tipo de dado das colunas �descricao� e �comentarios� pode ser definido
como XML porque o DB2 possui suporte nativo a essa linguagem.

               Antes
de come�ar, precisamos iniciar uma inst�ncia de servi�o do Net Search Extender
chamada db2text start. Em seguida,
deve-se habilitar o banco de dados DB2 para opera��es de busca textual. Isso
cria tabelas para administra��o e v�rios usu�rios de fun��es definidas (UDFs) e
Stored Procedures (STPs) que s�o necess�rias para a execu��o de pesquisa de
texto integral no DB2. Exemplo: comando para habilitar o database �vendas�: 

 

db2text enable database for text connect to
vendas

 

               Isso
precisa ser feito em cada banco de dados que ir� usar a busca textual. 

               Ap�s
essa etapa � poss�vel criar �ndices em colunas que armazenam textos em v�rios
formatos, inclusive o XML. O comando � o create
index. Exemplo: 

 

db2text create index ind1 for vendas on
produto(descricao)

 

               Se
o usu�rio fizer uma busca textual nesse momento, n�o obter� resultados, visto
que o �ndice textual ainda n�o cont�m dados. Eles precisam ser expl�citos e
sincronizados se nenhuma atualiza��o freq�ente est� especificada. Para tanto,
usamos index update: 

 

db2text update index ind1 for vendas

 

               Agora
estamos prontos para usar pesquisa de texto integral em documentos. Vamos
conhecer os m�todos para execut�-la.

 

a)      
Pesquisa em texto integral

 

        A maneira mais comum de implementar a busca textual com NSE � usando a
fun��o SQL contains() pois permite
f�ceis combina��es com outras condi��es como a cl�sula WHERE: 

 

SELECT coluna FROM tabela WHERE CONTAINS(nomedacoluna,
�criteriodebusca�) = 1; 

 

       Os dois par�metros exigidos na fun��o contains s�o o nome da coluna onde
ser� feita a pesquisa, e o crit�rio que ser� usado na busca. 

       Podemos usar os seguintes crit�rios: 

 

                -
Boolean: para opera��es boleanas com AND, OR e NOT;

                -
Palavras simples ou frases;

                -
Proximity: busca por palavras na mesma senten�a ou no mesmo par�grafo. 

                -
Fuzzy: busca por palavras com ortografia semelhante ao termo informado.

                - Wildcard: busca usando in�cio, meio e fim das palavras.

 

             Crit�rios avan�ados: 

 

                -
Thesaurus: suporta queries e diversos termos definidos pelos usu�rios.

                -
Numeric ranges: busca usando documentos ou colunas adicionais.

                -
Stemming: busca que reduz os termos pesquisados � palavra raiz. Dispon�vel
somente para palavras em ingl�s.

 

             Podemos
tamb�m usar a defini��o de tags limitando a busca por elementos, atributos ou
conte�do misto de XML. 

          A vers�o IBM
DB2 Express-C, por ser voltada ao desenvolvimento de aplicativos e ser
distribu�da com os pr�prios sistemas da IBM, oferece suporte � linguagem XML,
mas n�o � busca textual. 

                

 

 

II.              
Conclus�o

 

         Como vimos, o
m�todo de pesquisa de texto integral, seja no DB2 ou em outro banco de dados,
visa solucionar os problemas que n�o podem ser resolvidos atrav�s de queries ou
linguagens nativas de cada um, no que diz respeito �s pesquisas em documentos.
Conhecendo os crit�rios de busca e executando as tarefas iniciais, � poss�vel
fazer buscas textuais com efici�ncia. Os �ndices e atualiza��es aperfei�oam
essa funcionalidade muito �til nos sistemas de hoje onde temos cada vez mais
documentos armazenados em bancos.

         Antes de
implementar a solu��o, verifique se a vers�o do banco de dados usada oferece
suporte �s fun��es da busca textual.

 

 

III.           
Refer�ncias

 

[1] http://en.wikipedia.org/wiki/Full_text_search

[2] http://www.developers.net/ibmshowcase/view/3285

[3]
http://www.ibm.com/developerworks/edu/dm-dw-dm-0810shettar-i.html?

[4] http://www.mcom.com.br/?ir=areas.aspx&area=24&

NotCod=220

[5]
http://www.ibm.com/developerworks/data/library/

techarticle/dm-0606seubert/index.html

[6] http://www.pucsp.br/~logica/Fuzzy.htm

Confira outros conte�dos:

Por Priscila Em 2009

IMPLEMENTA��O DE �NDICES TEXTUAIS (FULL-TEXT SEARCH) NO IBM DB2

Este artigo descreve os conceitos, como funciona a busca por palavras ou frases em documentos com estrutura XML, a implementa��o e import�ncia de �ndices textuais no IBM DB2.

Confira outros conte�dos: