Artigo Java Magazine 49 - Conhecendo o Apache Lucene

Esse artigo faz parte da revista�Java Magazine ediç�o 49. Clique aqui para ler todos os artigos desta ediç�o

Clique aqui para ler esse artigo em PDF.

Conhecendo o Apache Lucene

Implemente recursos completos de pesquisa te

�

Nos �ltimos anos, os sites de busca se tornaram onipresentes em nossas vidas, ajudando-nos a lidar com o volume avassalador de informaç�es da web. Essa tecnologia de recuperaç�o de informaç�es tem ganhado espaço tamb�m no mundo corporativo, e existem hoje no mercado soluç�es em software (ex.: Ultraseek, Google Search Services) e em hardware (ex.: Google Mini e Google Search Appliance), que se prop�em a pesquisar p�ginas em intranets e arquivos em diversos formatos.

Para o desenvolvedor Java, existe uma alternativa open source que n�o deixa nada a dever a essas soluç�es propriet�rias: o Apache Lucene, uma biblioteca de pesquisa textual extremamente poderosa incorporada como projeto da Apache Software Foundation em 2001.

Diversos projetos utilizam o Lucene. Exemplos s�o o mecanismo de busca web Nutch (um subprojeto do Lucene), o sistema de ger�ncia de conte�do Open- CMS, o IDE Eclipse (em seu help online) e o Hibernate Search. Veja nos links uma refer�ncia para a lista completa de projetos �Powered by Lucene�.

Neste artigo, veremos os conceitos b�sicos do Apache Lucene e como utiliz�-lo atrav�s de uma aplicaç�o de exemplo.

�

Lucene numa casca de noz

A pesquisa textual, como sabemos, consiste em localizar documentos que cont�m uma determinada palavra ou frase. O termo �documento� � usado neste artigo de maneira ampla, referindo-se a p�ginas

HTML, arquivos em v�rios formatos, enfim, a qualquer objeto que possua texto e seja relevante para o usu�rio.

Um dos conceitos centrais da pesquisa textual � a indexaç�o. De maneira simplificada, indexar � processar os documentos e colocar as suas palavras em estruturas de dados que possam ser pesquisadas rapidamente: os �ndices. Os �ndices de pesquisa textual quase sempre s�o listas invertidas, em que cada palavra � uma chave que aponta os documentos nos quais ocorre. A Figura 1 ilustra esse conceito.

�

Figura 1. Esquema simplificado de uma lista invertida.

�

No Lucene, o �ndice � composto por duas estruturas l�gicas principais: documentos e campos (fields). Cada entrada no �ndice corresponde a um documento (org.apache. lucene.document.Document) e cada documento possui um conjunto de campos (org.apache. lucene.document.Field). Fazendo uma analogia com um banco de dados relacional, os documentos seriam como linhas numa tabela e os campos seriam semelhantes �s colunas. Em outras palavras, para cada objeto que podemos pesquisar (um documento) existem diversos atributos pelos quais podemos pesquisar (campos).

Um aspecto importante da pesquisa textual � que normalmente estamos interessados apenas no conte�do dos documentos e n�o na sua formataç�o ou estrutura de arquivo espec�fica. Por exemplo, se tivermos um conjunto de livros sobre Java em formato PDF, n�o estaremos preocupados com os dados de controle e de formataç�o contidos nos arquivos, mas com os textos em si. Por isso � preciso extrair o texto de interesse antes de index�-lo. (O Lucene n�o inclui ferramentas para fazer a extraç�o de texto. Cabe � aplicaç�o fazer isso antes de usar o Lucene.)

Analisando um pouco mais, veremos que mesmo o conte�do textual de cada documento n�o � inteiramente relevante. Por exemplo, palavras muito comuns como �de�, �a� e �o� n�o precisam ser indexadas, pois ocorrem em praticamente 100% dos documentos em l�ngua portuguesa. Al�m disso, algumas caracter�sticas da pesquisa, por exemplo discriminar mai�sculas e min�sculas e considerar caracteres acentuados, exigem o tratamento do texto antes da indexaç�o. Este processo � chamado " [...] continue lendo...

Artigo Java Magazine 49 - Conhecendo o Apache Lucene

Neste artigo, veremos os conceitos básicos do Apache Lucene e como utilizá-lo através de uma aplicação de exemplo.

Artigos relacionados