Alta performance na indexa��o com Apache Lucene � Parte II

O Lucene � um recurso que oferece dois tipos principais de servi�o: indexa��o e pesquisa de texto e, como visto no artigo anterior, tem habilidades para criar e armazenar informa��es em um �ndice. Na parte I o �ndice foi criado, agora, em continuidade, ser� realizado nele uma pesquisa, feita atrav�s de uma query (ou TermQuery, como veremos mais adiante). Para isso, � preciso empregar as classes IndexSearcher, que recebe um Directory como par�metro para identificar a localiza��o f�sica do �ndice. O processo se d� com a query passada por par�metro para o IndexSearcher, que por sua vez retorna um objeto do tipo Hits � cole��o de Documents usada para manipular o resultado da busca.

Confira o c�digo de exemplo:


            IndexSearcher reader = new IndexSearcher(directory);

            Hits hits = reader.search(new TermQuery(new Term ("conteudo","easy")));

            System.out.println ("Pesquisando palavra easy...");

            System.out.println ("Numero de ocorrencias: " + hits.length());

            Iterator<Hit> i = hits.iterator();

            while (i.hasNext()){

                  Hit hit = i.next();

                  System.out.println ("Score: ");

                  System.out.println (hit.getScore());

                  Document d =(Document) hit.getDocument();

                  System.out.println ("Nome do arquivo indexado: ");

                  System.out.println (d.get("arquivo"));
                 

            }
            reader.close();

Sa�da


            Pesquisando palavra easy...
            Numero de ocorrencias: 1
            Score:
            0.033562027
            Nome do arquivo indexado:
            c:/arquivo.txt

Na segunda linha � feita a query atrav�s da TermQuery. Esta classe recebe como par�metro um Term, que representa uma palavra do texto indexado. Trata-se de uma unidade de pesquisa que comp�e dois itens, um representa o Field de um Document e o outro o texto a ser pesquisado. No exemplo acima, a string conte�do � o nome do Field e easy � o texto a ser procurado no �ndice.

A fun��o lenght() da Classe Hits retorna o n�mero de ocorr�ncias da palavra easy no �ndice. Em seguida foi feita a intera��o recuperando os Documents para exibir as informa��es na tela. O score � o valor de relev�ncia do document, sendo calculado por uma f�rmula para cada Document.

Excluindo Documents do �ndice

A exclus�o de documentos pode ser feita atrav�s do IndexReader, classe utilizada para acessar um �ndice j� existente. IndexReader � uma classe abstrata, portanto n�o podemos instancia-la diretamente. Utilizaremos a fun��o IndexReader.open( Directory directory) para criar uma classe concreta de IndexReader.

Os Documents existentes no �ndice podem ser acessados atrav�s de um inteiro, mas esse n�mero pode mudar futuramente. Para a exclus�o do Document, foi escolhido o m�todo deleteDocuments utilizando um Term para localizar o documento a ser exclu�do. Abaixo segue um exemplo:


            package info.glaucioguerra.main;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.Term;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

public class Main {

      public static void main (String[]args) throws Exception{

            Directory directory = FSDirectory.getDirectory("c:/indice", false);

            IndexReader editar = IndexReader.open(directory);

            editar.deleteDocuments(new Term ("conteudo","easy"));     

            editar.close();

      }

}

Neste c�digo foram exclu�dos todos os Documents que possuem um Field de nome conte�do com o texto easy.

Atualizando o �ndice

Para a atualiza��o do �ndice no Lucene n�o existe uma fun��o que fa�a um update em um Document. � necess�rio excluir o Document e indexar o documento novamente.

Ferramentas de visualiza��o de �ndice

Existem algumas ferramentas que auxiliam a visualiza��o do �ndice do Lucene. Uma delas � a Limo, com interface web para navega��o do �ndice. No entanto, vale lembrar que existem algumas limita��es comparadas com a Luke.

A Limo pode ser baixada neste link e a Luke aqui. Neste artigo vamos trabalhar com o Luke. Baixe o arquivo lukeall.jar e execute com um duplo clique. Na tela inicial, escolha o diret�rio onde foi criado o �ndice (no nosso exemplo foi em c:\indice).

Resumo do �ndice, com a quantidade de fields, documents, documents exclu�dos etc.

No canto esquerdo da figura ilustrativa s�o exibidos os Fields que foram armazenados no dado exemplo. Na aba Overview � listado um resumo do �ndice, com a quantidade de fields, documents, documents exclu�dos etc.

Na aba Documents � poss�vel navegar nos terms dos Documents, efetuar exclus�o, exibir o conte�do dos documentos, entre outros recursos.

Assim sendo, atrav�s dos exemplos estudados, pode-se concluir que o Lucene � uma excelente ferramenta para indexa��o, j� que oferece um �timo desempenho facilitando a busca de documentos de forma simples e r�pida.