Conhecendo o Lucene - Revista Java Magazine 104

Aten��o: esse artigo tem um v�deo complementar. Clique e assista!

De que se trata o artigo:

O artigo apresenta os componentes comumente encontrados em mecanismos de buscas modernos e como o framework Apache Lucene pode auxiliar na constru��o de solu��es desse tipo. Uma aplica��o de cadastro e busca de curr�culos � utilizada para demonstra��o dos recursos da biblioteca.

Em que situa��o o tema � �til:

O tema � �til nas situa��es em que o usu�rio precisa realizar buscas complexas sobre os dados de uma aplica��o. Implementa��es de buscas tradicionais, baseadas em consultas SQL ou na leitura sequencial do conte�do de arquivos, s�o limitadas e podem ter um desempenho ruim. Outras abordagens s�o necess�rias, tais como a apresentada pelo Lucene.

Resumo DevMan:

O Lucene baseia-se no conceito de �ndices, estruturas de dados que permitem que qualquer termo e as suas localiza��es dentro do conte�do sejam encontrados rapidamente. As suas classes dividem-se grosseiramente naquelas que s�o utilizadas para a constru��o do �ndice e naquelas que, utilizando o �ndice, s�o capazes de realizar buscas eficientes sobre o conte�do. O Lucene � um framework de baixo n�vel e, como tal, exige um bom conhecimento de seus conceitos para o seu correto uso na aplica��o.

Autores: Paulo Sigrist e Wilson Akio Higashino

A exist�ncia de bons mecanismos de busca nas aplica��es que utilizamos � fundamental para nosso dia-a-dia. Com o aumento da quantidade de informa��es que produzimos e consumimos, � cada vez mais importante sermos capazes de localizar a informa��o correta de maneira f�cil, r�pida e intuitiva.

O que seria da Internet se n�o existissem os poderosos motores de busca como o Google e o Bing? De fato, pouco importa a exist�ncia de muita informa��o se n�o somos capazes de localiz�-la. � interessante notar tamb�m que n�o s� na Internet as buscas t�m exercido esse papel t�o fundamental. Sistemas Desktop, como o Mac OS X e o Windows, j� integram mecanismos que permitem localizar rapidamente arquivos e recursos pelo seu nome, conte�do e in�meros outros filtros. Aplica��es tradicionais, como tocadores de m�dias e clientes de e-mail, tamb�m possuem motores de busca, e at� mesmo Smartphones iOS e Android j� possuem implementa��es desses recursos. De certa forma, isso demonstra n�o s� o aumento do volume de informa��es que produzimos, mas tamb�m que o paradigma usualmente utilizado para organiz�-las, baseado em arquivos e diret�rios, n�o � suficiente para nossas necessidades atuais.

Tradicionalmente, implementamos buscas em nossas aplica��es atrav�s de consultas SQL, executadas por Sistemas Gerenciadores de Banco de Dados (SGBDs). Todavia, esta abordagem possui uma s�rie de limita��es. Ela implica, por exemplo, na exist�ncia de um SGDB capaz de executar essas consultas. Al�m disso, nem sempre � f�cil transformar uma s�rie de filtros em SQL. Observe, por exemplo, a variedade de consultas que o Google fornece e imagine como elas poderiam ser transformadas em comandos select. Finalmente, o desempenho de tais consultas nem sempre � compat�vel com o requerido pela aplica��o. Consultas por substrings em colunas de tipo texto s�o um pesadelo para muitos DBAs e costumam ser evitadas, j� que impactam profundamente no desempenho do SGDB.

Pensando nisso, esse artigo apresenta o Apache Lucene, um framework de c�digo aberto poderoso e flex�vel que pode ser usado para a constru��o de mecanismos de buscas e para a integra��o destes com aplica��es Java de diversas naturezas. Vamos apresentar os seus conceitos b�sicos atrav�s de uma aplica��o de cadastro e busca de curr�culos.

Componentes de um mecanismo de busca

Antes de entendermos o que o Lucene faz, vale a pena revisar os componentes que tradicionalmente comp�em um mecanismo de busca. A Figura 1 cont�m uma representa��o em alto n�vel dos componentes principais.

Em um extremo da figura temos o conte�do propriamente dito, e em outro os usu�rios que desejam realizar pesquisas sobre esse conte�do. Para que a busca seja feita de forma r�pida e eficiente, os mecanismos de busca baseiam-se nos chamados �ndices, que s�o estruturas de dados que permitem que os termos sejam localizados rapidamente, assim como os locais dentro do conte�do nos quais os termos s�o encontrados. No entanto, �ndices s�o estruturas complexas, cuja constru��o exige grande poder computacional. Assim, � comum dividirmos as aplica��es de busca em dois grandes grupos de funcionalidades: a constru��o do �ndice e as consultas que s�o realizadas com o seu aux�lio.

Figura 1. Componentes de uma aplica��o de busca (adaptado de [4]).

Para a constru��o do �ndice, o primeiro passo consiste na etapa de aquisi��o do conte�do. Por exemplo: o Google possui rob�s, chamados de crawlers, que navegam pela Web a procura de novas p�ginas a serem indexadas. Em outros casos, essa etapa � muito mais simples: em um cliente de e-mail o conte�do s�o as pr�prias mensagens dos usu�rios, que podem ser acessados diretamente pela aplica��o.

Uma vez obtido o conte�do, eles s�o transformados nos chamados �documentos�, que nada mais s�o que representa��es can�nicas, definidas pelo mecanismo de busca, e que representam o conte�do obtido. Por exemplo: as buscas embutidas nos sistemas operacionais s�o capazes de encontrar palavras-chave em arquivos PDF, documentos Word ou at� mesmo em mensagens armazenadas em clientes de e-mail. Portanto, nesta etapa do processo de indexa��o, todos esses diferentes tipos de documentos s�o convertidos para um formato comum, normalmente composto por um conjunto de campos padronizados, tais como autor, data de cria��o e o pr�prio conte�do.

Em seguida, esses documentos s�o analisados a fim de tornar o �ndice mais efetivo. Alguns processamentos simples, tais como a convers�o de mai�sculas para min�sculas, e a elimina��o de conectivos, tais como �a�, �e� e �ou�, s�o comuns durante essa etapa. Todavia, outros mecanismos mais complexos tamb�m s�o utilizados. Por exemplo, � comum que as palavras sejam processadas a fim de reduzi-las � sua raiz morfol�gica. Assim, termos como �computa��o� e �computadores� s�o transformados em uma raiz comum, �computa�, permitindo que termos relacionados sejam encontrados. O resultado da an�lise � um conjunto de tokens, que s�o as �palavras� que efetivamente far�o parte do �ndice. Esta etapa � uma das mais importantes do processo de indexa��o, podendo determinar o sucesso ou o fracasso da aplica��o.

Por fim, a �ltima etapa do processo de indexa��o alimenta o �ndice com os tokens obtidos a partir do documento analisado. Como todo esse processo � custoso, normalmente um conjunto de documentos d�o origem a uma vers�o inicial do �ndice, que � modificado de forma incremental atrav�s de adi��es de novos documentos e de atualiza��es dos j� existentes.

J� no outro extremo da arquitetura temos os usu�rios, que interagem com a aplica��o atrav�s de uma interface na qual ele entra com a busca desejada. Em seguida, h� uma etapa em que a entrada do usu�rio � convertida para uma consulta em um formato definido pelo mecanismo de busca. Como uma analogia, pense na convers�o de um filtro para uma consulta SQL a ser executada em um banco de dados.

A consulta � ent�o executada utilizando como aux�lio o �ndice constru�do anteriormente. � importante ressaltar novamente a import�ncia do �ndice para uma execu��o eficiente da consulta. Sem ele, as buscas teriam que varrer todo o conte�do em busca da informa��o requerida. Em um programa de e-mail ou em seu Desktop, o tempo necess�rio para essa varredura pode ser aceit�vel, mas para a Internet � invi�vel imaginarmos essa situa��o.

Finalizada a execu��o da busca, os resultados s�o finalmente apresentados para o usu�rio, geralmente ordenados por relev�ncia ou outro crit�rio que facilite localizar a informa��o desejada.

O Lucene

O Lucene � um framework que foi criado por Doug Cutting em 2000 como um projeto pessoal, mas que vem desde setembro de 2001 sendo mantido pelo grupo Apache. No momento da escrita deste artigo, sua �ltima vers�o era a 3.5.0. Ele auxilia nas etapas de constru��o e an�lise de documentos, indexa��o, constru��o e execu��o de buscas, e o gerenciamento dos resultados. Desta maneira, a aplica��o que utiliza o Lucene � ainda respons�vel por duas partes fundamentais: a aquisi��o de conte�do e a interface pela qual o usu�rio ir� interagir.

...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO