Possibilitando alta performance na indexação com o Apache Lucene

Possibilitando alta performance na indexa��o com o Apache Lucene - Parte I

A Apache desenvolveu uma API de nome Lucene que tem como utilidade recuperar informa��es em aplica��es de arquivos. Esta funcionalidade se d� atrav�s de um engine de pesquisa, que permite a indexa��o de textos com alta performance. Isso torna poss�vel executar buscas de qualquer dado que possa ser transformado em texto. O recurso pode ser aplicado para, por exemplo, localizar palavras inclusive em documentos em PDF, que anteriormente foram transformados em textos e indexados pelo Lucene. Existe uma s�rie de aplicativos desktops e web que utilizam o Lucene como engine de pesquisa, como mostra a lista a seguir:

Eclipse IDE � www.eclipse.org

DocJar - http://www.docjar.com/

Jira - http://www.atlassian.com/software/jira/

CNET Reviews - http://reviews.cnet.com/

JGuru - http://www.jguru.com/

JDK Search - http://jdk.representqueens.com/

SourceForge - http://www.sourceforge.net/

Wikipedia - http://en.wikipedia.org/wiki/Lucene

O Lucene oferece suporte para outras linguagens al�m do Java: Lucene4C � C, CLucene � C++, �MUTIS � Delphi, Lucene.Net � C# .Net, Zend Framework � PHP e Ferret � Ruby. Para configurar o ambiente, acesse o site para fazer o download do Apache Lucene em http://www.apache.org/dyn/closer.cgi/lucene/java/. Vamos trabalhar com a vers�o 2.1 neste artigo. O nome do arquivo executado � lucene-2.1.0.zip. Veja abaixo sua estrutura de pastas:

A pasta contrib cont�m alguns recursos externos do Lucene, como Analysers para diversos idiomas, como veremos mais adiante, al�m de benchmarks, highlighter, entre outros. No entanto, o foco desta vez ser� o Analyser. Vale lembrar que a pasta docs cont�m a documenta��o da API e a SRC o c�digo fonte da aplica��o de exemplo. Assim sendo, configure o classpath da sua aplica��o incluindo o arquivo lucene-core-2.1.0.jar.

Conferindo o funcionamento

A indexa��o passa por um processo de an�lise do documento e, automaticamente, o converte para um texto simples. A extra��o do texto � feita a partir de um Analyser, classe que cont�m as regras para a realiza��o desse trabalho de retirada do conte�do. No entanto, � preciso saber que existem diversas implementa��es da classe Analyser que realizam essa mesma fun��o. Optamos ent�o aqui o usa da BrazilianAnalyser que cont�m as stop_words da nossa l�ngua. No exemplo inicial estaremos utilizando o Analyser padr�o para facilitar o aprendizado.

Stop words s�o palavras irrelevantes para o nosso �ndice. Por isso, nada impede que voc� crie o seu Analyser com as suas pr�prias stop words. Veja alguns exemplos: "ambas", "ambos", "ano", "anos", "antes", "ao", "aonde", "aos", "apenas", "apos" etc.

O segundo passo ap�s a extra��o do texto � organizar o �ndice, que pode ser acessado futuramente em pesquisa, de maneira pr�tica, j� que o Lucene disp�e de classes que definem a estrutura interna deste sum�rio a ser gerado.

Em defini��o �s nomenclaturas do Lucene, a classe Document � uma unidade de indexa��o e pesquisa que permite armazenar campos (Fields). Sobre a classe Field pode-se dizer que um field s� pode ser armazenado em um Document, pois possui um nome e um valor. N�o � poss�vel armazenar dois Fields com o mesmo nome em um documento. Mas um documento pode conter um ou mais Fields. A classe Directory � respons�vel por endere�ar o �ndice. O armazenamento dos Documents � feito no Directory. Na ilustra��o do fluxo do processo de indexa��o no Lucene o processo fica mais claro:

Fluxograma do Processo de Indexa��o

O IndexWriter � o respons�vel pela cria��o do �ndice, ao qual, atrav�s desta classe, pode-se adicionar Documents. Enquanto isso, o IndexSearcher tem o papel de executar a busca no �ndice. Os crit�rios de busca s�o passados para a fun��o de busca do Searcher atrav�s do Objeto Query. Em seguida, o Objeto Query � constru�do atrav�s da TermQuery, para o qual passamos como par�metro o nome do campo a ser procurado e o valor que possivelmente ele cont�m.

�

Veja exemplo de Indexa��o conforme c�digo abaixo:

�

package info.glaucioguerra.main;

�

import java.io.FileInputStream;

import java.io.FileReader;

import java.io.IOException;

�

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

�

public class Main {

�� public static void main(String[] args) {

�� Document document = new Document();

�� try {

�� FileInputStream arquivo = new FileInputStream("c:/arquivo.txt");

�� Directory directory = FSDirectory.getDirectory("c:/indice", true);

�� Analyzer analyzer = new StandardAnalyzer();

�� IndexWriter writer = new IndexWriter(directory, analyzer, true);

�� document.add(new Field("arquivo", "c:/arquivo.txt",Field.Store.YES, Field.Index.NO));

�� document.add(new Field("conteudo", new FileReader(arquivo.getFD())));

�� writer.addDocument(document);

�� writer.close();

arquivo.close();

�

�� } catch (IOException e) {

�� e.printStackTrace();

�� }

}

�

Na primeira linha do c�digo declara-se o Document que ser� armazenado no nosso �ndice. Carregamos o arquivo arquivo.txt pelo FileInputStream com o seguinte conte�do:

�

�JDK 6 with Java EE

Java EE provides web services, component-model, management, and communications APIs that make it the industry standard for implementing enterprise-class service-oriented architecture (SOA) and Web 2.0 applications.

�

Build native code with easy Java Native Interface (JNI) connections, or accelerate your Java development by leveraging DTrace, Containers, and ZFS. Get Sun's latest development platform with Sun Studio compilers and tools for C/C++/Fortran, NetBeans IDE, and the next-generation Solaris operating system all in the Solaris Express, Developer Edition.�

�

A escolha deste texto para indexa��o foi feita porque estamos utilizando o Analyser padr�o do Lucene, que reconhece as stop word�s no idioma Ingl�s.

A classe Directory informa o diret�rio onde ser�o armazenados os arquivos do Lucene.� O par�metro �true� informa que um novo �ndice ser� criado, ou destru�do caso j� exista algum. Logo em seguida temos a classe Analyser, respons�vel pela extra��o do texto, como j� mencionamos. A IndexWriter recebe como par�metro o Directory e o Analyser para efetuar a grava��o do �ndice.

�

A parte do c�digo que merece mais aten��o � a cria��o do Document e a organiza��o de seus Fields. No nosso exemplo estamos criando dois Fields, um para armazenar o nome do arquivo e o outro para guardar o conte�do.

�

Analisando o trecho de c�digo:

document.add(new Field("arquivo", "c:/arquivo.txt",Field.Store.YES, Field.Index.NO));

�

No caso supracidado, adiciona-se um Field para o Document com o nome arquivo e o seu conte�do � o nome do arquivo do FileInputStream. O par�metro Field.Store.YES define que o Field deve ser armazenado no �ndice. J� o segundo par�metro define que o Field n�o deve ser indexado. Em outras palavras, o Field arquivo � armazenado no �ndice, mas n�o � um campo indexado, servindo somente para informar o nome do arquivo que foi indexado.

�

Analisando a cria��o do segundo Field no Document:

document.add(new Field("conteudo", new FileReader(arquivo.getFD())));

�

O primeiro par�metro indica o nome do Field e o segundo um FileReader que fornece a leitura de uma cadeia de caracteres. Este Field ser� armazenado e indexado.

Ficamos por aqui com a primeira parte do artigo. At� o pr�ximo artigo!

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Glaucio Em 2007

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso