Artigo Java Magazine 49 - Conhecendo o Apache Lucene

pace=0 src="/loja/img/capa_java49_G.gif" border=0>

ft-com:office:office" />

Implemente recursos completos de pesquisa te

�

Nos �ltimos anos, os sites de busca se tornaram onipresentes em nossas vidas, ajudando-nos a lidar com o volume avassalador de informa��es da web. Essa tecnologia de recupera��o de informa��es tem ganhado espa�o tamb�m no mundo corporativo, e existem hoje no mercado solu��es em software (ex.: Ultraseek, Google Search Services) e em hardware (ex.: Google Mini e Google Search Appliance), que se prop�em a pesquisar p�ginas em intranets e arquivos em diversos formatos.

Para o desenvolvedor Java, existe uma alternativa open source que n�o deixa nada a dever a essas solu��es propriet�rias: o Apache Lucene, uma biblioteca de pesquisa textual extremamente poderosa incorporada como projeto da Apache Software Foundation em 2001.

Diversos projetos utilizam o Lucene. Exemplos s�o o mecanismo de busca web Nutch (um subprojeto do Lucene), o sistema de ger�ncia de conte�do Open- CMS, o IDE Eclipse (em seu help online) e o Hibernate Search. Veja nos links uma refer�ncia para a lista completa de projetos �Powered by Lucene�.

Neste artigo, veremos os conceitos b�sicos do Apache Lucene e como utiliz�-lo atrav�s de uma aplica��o de exemplo.

�

Lucene numa casca de noz

A pesquisa textual, como sabemos, consiste em localizar documentos que cont�m uma determinada palavra ou frase. O termo �documento� � usado neste artigo de maneira ampla, referindo-se a p�ginas

HTML, arquivos em v�rios formatos, enfim, a qualquer objeto que possua texto e seja relevante para o usu�rio.

Um dos conceitos centrais da pesquisa textual � a indexa��o. De maneira simplificada, indexar � processar os documentos e colocar as suas palavras em estruturas de dados que possam ser pesquisadas rapidamente: os �ndices. Os �ndices de pesquisa textual quase sempre s�o listas invertidas, em que cada palavra � uma chave que aponta os documentos nos quais ocorre. A Figura 1 ilustra esse conceito.

�

Figura 1. Esquema simplificado de uma lista invertida.

�

No Lucene, o �ndice � composto por duas estruturas l�gicas principais: documentos e campos (fields). Cada entrada no �ndice corresponde a um documento (org.apache. lucene.document.Document) e cada documento possui um conjunto de campos (org.apache. lucene.document.Field). Fazendo uma analogia com um banco de dados relacional, os documentos seriam como linhas numa tabela e os campos seriam semelhantes �s colunas. Em outras palavras, para cada objeto que podemos pesquisar (um documento) existem diversos atributos pelos quais podemos pesquisar (campos).

Um aspecto importante da pesquisa textual � que normalmente estamos interessados apenas no conte�do dos documentos e n�o na sua formata��o ou estrutura de arquivo espec�fica. Por exemplo, se tivermos um conjunto de livros sobre Java em formato PDF, n�o estaremos preocupados com os dados de controle e de formata��o contidos nos arquivos, mas com os textos em si. Por isso � preciso extrair o texto de interesse antes de index�-lo. (O Lucene n�o inclui ferramentas para fazer a extra��o de texto. Cabe � aplica��o fazer isso antes de usar o Lucene.)

Analisando um pouco mais, veremos que mesmo o conte�do textual de cada documento n�o � inteiramente relevante. Por exemplo, palavras muito comuns como �de�, �a� e �o� n�o precisam ser indexadas, pois ocorrem em praticamente 100% dos documentos em l�ngua portuguesa. Al�m disso, algumas caracter�sticas da pesquisa, por exemplo discriminar mai�sculas e min�sculas e considerar caracteres acentuados, exigem o tratamento do texto antes da indexa��o. Este processo � chamado an�lise e � realizado ap�s a extra��o do texto. No Lucene, a an�lise � feita pelas implementa��es da classe abstrata org. apache.lucene.analysis.Analyzer.

O Lucene fornece uma implementa��o default bastante razo�vel para a classe Analyzer, o StandardAnalyzer. Entretanto, para textos em l�ngua portuguesa recomen- damos usar uma implementa��o espec�fica. Criamos para este artigo a classe PortuguesAnalyzer, que cont�m uma lista de palavras comuns da nossa l�ngua e pode ser configurada para diferenciar ou n�o caracteres acentuados (veremos adiante este analisador em uso). Temos assim uma vis�o em passos do processo de indexa��o:

1. Acessar os documentos originais e extrair o texto relevante para o usu�rio. 2. Processar o texto (an�lise). 3. Indexar.

Veja na Figura 2 uma vis�o esquem�tica desse processo e onde o Lucene se insere nele.

�

Figura 2. Vis�o esquem�tica de uma aplica��o Java usando o Lucene.

�

Aplica��o de exemplo: pesquisa textual no desktop

Vamos agora demonstrar na pr�tica alguns dos conceitos apresentados, atrav�s de uma aplica��o de exemplo que permite realizar a pesquisa em arquivos de forma interativa. A aplica��o gr�fica que criamos ilustra o uso b�sico do Lucene, sendo capaz de indexar arquivos nos formatos mais utilizados: MS Office (Word, Excel e PowerPoint), PDF, RTF, HTML e XML.

Sobre a extra��o

...

Quer ler esse conteúdo completo? Tenha acesso completo

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por S�rgio Em 2008

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso