Alta performance na indexação com Apache Lucene � Parte II

O Lucene � um recurso que oferece dois tipos principais de servi�o: indexa��o e pesquisa de texto e, como visto no artigo anterior, tem habilidades para criar e armazenar informa��es em um �ndice. Na parte I o �ndice foi criado, agora, em continuidade, ser� realizado nele uma pesquisa, feita atrav�s de uma query (ou TermQuery, como veremos mais adiante). Para isso, � preciso empregar as classes IndexSearcher, que recebe um Directory como par�metro para identificar a localiza��o f�sica do �ndice. O processo se d� com a query passada por par�metro para o IndexSearcher, que por sua vez retorna um objeto do tipo Hits � cole��o de Documents usada para manipular o resultado da busca.

Confira o c�digo de exemplo:


            IndexSearcher reader = new IndexSearcher(directory);

            Hits hits = reader.search(new TermQuery(new Term ("conteudo","easy")));

            System.out.println ("Pesquisando palavra easy...");

            System.out.println ("Numero de ocorrencias: " + hits.length());

            Iterator<Hit> i = hits.iterator();

            while (i.hasNext()){

                  Hit hit = i.next();

                  System.out.println ("Score: ");

                  System.out.println (hit.getScore());

                  Document d =(Document) hit.getDocument();

                  System.out.println ("Nome do arquivo indexado: ");

                  System.out.println (d.get("arquivo"));
                 

            }
            reader.close();

Sa�da


            Pesquisando palavra easy...
            Numero de ocorrencias: 1
            Score:
            0.033562027
            Nome do arquivo indexado:
            c:/arquivo.txt

Na segunda linha � feita a query atrav�s da TermQuery. Esta classe recebe como par�metro um Term, que representa uma palavra do texto indexado. Trata-se de uma unidade de pesquisa que comp�e dois itens, um representa o Field de um Document e o outro o texto a ser pesquisado. No exemplo acima, a string conte�do � o nome do Field e easy � o texto a ser procurado no �ndice.

A fun��o lenght() da Classe Hits retorna o n�mero de ocorr�ncias da palavra easy no �ndice. Em seguida foi feita a intera��o recuperando os Documents para exibir as informa��es na tela. O score � o valor de relev�ncia do document, sendo calculado por uma f�rmula para cada Document.

Excluindo Documents do �ndice

A exclus�o de documentos pode ser feita atrav�s do IndexReader, classe utilizada para acessar um �ndice j� existente. IndexReader � uma classe abstrata, portanto n�o podemos instancia-la diretamente. Utilizaremos a fun��o IndexReader.open( Directory directory) para criar uma classe concreta de IndexReader.

Os Documents existentes no �ndice podem ser acessados atrav�s de um inteiro, mas esse n�mero pode mudar futuramente. Para a exclus�o do Document, foi escolhido o m�todo deleteDocuments utilizando um Term para localizar o documento a ser exclu�do. Abaixo segue um exemplo:


            package info.glaucioguerra.main;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.Term;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

public class Main {

      public static void main (String[]args) throws Exception{

            Directory directory = FSDirectory.getDirectory("c:/indice", false);

            IndexReader editar = IndexReader.open(directory);

            editar.deleteDocuments(new Term ("conteudo","easy"));     

            editar.close();

      }

}

Neste c�digo foram exclu�dos todos os Documents que possuem um Field de nome conte�do com o texto easy.

Atualizando o �ndice

Para a atualiza��o do �ndice no Lucene n�o existe uma fun��o que fa�a um update em um Document. � necess�rio excluir o Document e indexar o documento novamente.

Ferramentas de visualiza��o de �ndice

Existem algumas ferramentas que auxiliam a visualiza��o do �ndice do Lucene. Uma delas � a Limo, com interface web para navega��o do �ndice. No entanto, vale lembrar que existem algumas limita��es comparadas com a Luke.

A Limo pode ser baixada neste link e a Luke aqui. Neste artigo vamos trabalhar com o Luke. Baixe o arquivo lukeall.jar e execute com um duplo clique. Na tela inicial, escolha o diret�rio onde foi criado o �ndice (no nosso exemplo foi em c:\indice).

Resumo do �ndice, com a quantidade de fields, documents, documents exclu�dos etc.

No canto esquerdo da figura ilustrativa s�o exibidos os Fields que foram armazenados no dado exemplo. Na aba Overview � listado um resumo do �ndice, com a quantidade de fields, documents, documents exclu�dos etc.

Na aba Documents � poss�vel navegar nos terms dos Documents, efetuar exclus�o, exibir o conte�do dos documentos, entre outros recursos.

Assim sendo, atrav�s dos exemplos estudados, pode-se concluir que o Lucene � uma excelente ferramenta para indexa��o, j� que oferece um �timo desempenho facilitando a busca de documentos de forma simples e r�pida.

Refer�ncias:

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Glaucio Em 2007

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Alta performance na indexa��o com Apache Lucene � Parte II

O Lucene � um recurso que oferece dois tipos principais de servi�o: indexa��o e pesquisa de texto...