Aten��o: esse artigo tem um v�deo complementar. Clique e assista!

De que se trata o artigo:

O artigo apresenta os componentes comumente encontrados em mecanismos de buscas modernos e como o framework Apache Lucene pode auxiliar na constru��o de solu��es desse tipo. Uma aplica��o de cadastro e busca de curr�culos � utilizada para demonstra��o dos recursos da biblioteca.

Em que situa��o o tema � �til:

O tema � �til nas situa��es em que o usu�rio precisa realizar buscas complexas sobre os dados de uma aplica��o. Implementa��es de buscas tradicionais, baseadas em consultas SQL ou na leitura sequencial do conte�do de arquivos, s�o limitadas e podem ter um desempenho ruim. Outras abordagens s�o necess�rias, tais como a apresentada pelo Lucene.

Resumo DevMan:

O Lucene baseia-se no conceito de �ndices, estruturas de dados que permitem que qualquer termo e as suas localiza��es dentro do conte�do sejam encontrados rapidamente. As suas classes dividem-se grosseiramente naquelas que s�o utilizadas para a constru��o do �ndice e naquelas que, utilizando o �ndice, s�o capazes de realizar buscas eficientes sobre o conte�do. O Lucene � um framework de baixo n�vel e, como tal, exige um bom conhecimento de seus conceitos para o seu correto uso na aplica��o.

Autores: Paulo Sigrist e Wilson Akio Higashino

A exist�ncia de bons mecanismos de busca nas aplica��es que utilizamos � fundamental para nosso dia-a-dia. Com o aumento da quantidade de informa��es que produzimos e consumimos, � cada vez mais importante sermos capazes de localizar a informa��o correta de maneira f�cil, r�pida e intuitiva.

O que seria da Internet se n�o existissem os poderosos motores de busca como o Google e o Bing? De fato, pouco importa a exist�ncia de muita informa��o se n�o somos capazes de localiz�-la. � interessante notar tamb�m que n�o s� na Internet as buscas t�m exercido esse papel t�o fundamental. Sistemas Desktop, como o Mac OS X e o Windows, j� integram mecanismos que permitem localizar rapidamente arquivos e recursos pelo seu nome, conte�do e in�meros outros filtros. Aplica��es tradicionais, como tocadores de m�dias e clientes de e-mail, tamb�m possuem motores de busca, e at� mesmo Smartphones iOS e Android j� possuem implementa��es desses recursos. De certa forma, isso demonstra n�o s� o aumento do volume de informa��es que produzimos, mas tamb�m que o paradigma usualmente utilizado para organiz�-las, baseado em arquivos e diret�rios, n�o � suficiente para nossas necessidades atuais.

Tradicionalmente, implementamos buscas em nossas aplica��es atrav�s de consultas SQL, executadas por Sistemas Gerenciadores de Banco de Dados (SGBDs). Todavia, esta abordagem possui uma s�rie de limita��es. Ela implica, por exemplo, na exist�ncia de um SGDB capaz de executar essas consultas. Al�m disso, nem sempre � f�cil transformar uma s�rie de filtros em SQL. Observe, por exemplo, a variedade de consultas que o Google fornece e imagine como elas poderiam ser transformadas em comandos select. Finalmente, o desempenho de tais consultas nem sempre � compat�vel com o requerido pela aplica��o. Consultas por substrings em colunas de tipo texto s�o um pesadelo para muitos DBAs e costumam ser evitadas, j� que impactam profundamente no desempenho do SGDB.

Pensando nisso, esse artigo apresenta o Apache Lucene, um framework de c�digo aberto poderoso e flex�vel que pode ser usado para a constru��o de mecanismos de buscas e para a integra��o destes com aplica��es Java de diversas naturezas. Vamos apresentar os seus conceitos b�sicos atrav�s de uma aplica��o de cadastro e busca de curr�culos.

Componentes de um mecanismo de busca

Antes de entendermos o que o Lucene faz, vale a pena revisar os componentes que tradicionalmente comp�em um mecanismo de busca. A Figura 1 cont�m uma representa��o em alto n�vel dos componentes principais.

Em um extremo da figura temos o conte�do propriamente dito, e em outro os usu�rios que desejam realizar pesquisas sobre esse conte�do. Para que a busca seja feita de forma r�pida e eficiente, os mecanismos de busca baseiam-se nos chamados �ndices, que s�o estruturas de dados que permitem que os termos sejam localizados rapidamente, assim como os locais dentro do conte�do nos quais os termos s�o encontrados. No entanto, �ndices s�o estruturas complexas, cuja constru��o exige grande poder computacional. Assim, � comum dividirmos as aplica��es de busca em dois grandes grupos de funcionalidades: a constru��o do �ndice e as consultas que s�o realizadas com o seu aux�lio.

Figura 1. Componentes de uma aplica��o de busca (adaptado de [4]).

Para a constru��o do �ndice, o primeiro passo consiste na etapa de aquisi��o do conte�do. Por exemplo: o Google possui rob�s, chamados de crawlers, que navegam pela Web a procura de novas p�ginas a serem indexadas. Em outros casos, essa etapa � muito mais simples: em um cliente de e-mail o conte�do s�o as pr�prias mensagens dos usu�rios, que podem ser acessados diretamente pela aplica��o.

Uma vez obtido o conte�do, eles s�o transformados nos chamados �documentos�, que nada mais s�o que representa��es can�nicas, definidas pelo mecanismo de busca, e que representam o conte�do obtido. Por exemplo: as buscas embutidas nos sistemas operacionais s�o capazes de encontrar palavras-chave em arquivos PDF, documentos Word ou at� mesmo em mensagens armazenadas em clientes de e-mail. Portanto, nesta etapa do processo de indexa��o, todos esses diferentes tipos de documentos s�o convertidos para um formato comum, normalmente composto por um conjunto de campos padronizados, tais como autor, data de cria��o e o pr�prio conte�do.

Em seguida, esses documentos s�o analisados a fim de tornar o �ndice mais efetivo. Alguns processamentos simples, tais como a convers�o de mai�sculas para min�sculas, e a elimina��o de conectivos, tais como �a�, �e� e �ou�, s�o comuns durante essa etapa. Todavia, outros mecanismos mais complexos tamb�m s�o utilizados. Por exemplo, � comum que as palavras sejam processadas a fim de reduzi-las � sua raiz morfol�gica. Assim, termos como �computa��o� e �computadores� s�o transformados em uma raiz comum, �computa�, permitindo que termos relacionados sejam encontrados. O resultado da an�lise � um conjunto de tokens, que s�o as �palavras� que efetivamente far�o parte do �ndice. Esta etapa � uma das mais importantes do processo de indexa��o, podendo determinar o sucesso ou o fracasso da aplica��o.

Por fim, a �ltima etapa do processo de indexa��o alimenta o �ndice com os tokens obtidos a partir do documento analisado. Como todo esse processo � custoso, normalmente um conjunto de documentos d�o origem a uma vers�o inicial do �ndice, que � modificado de forma incremental atrav�s de adi��es de novos documentos e de atualiza��es dos j� existentes.

J� no outro extremo da arquitetura temos os usu�rios, que interagem com a aplica��o atrav�s de uma interface na qual ele entra com a busca desejada. Em seguida, h� uma etapa em que a entrada do usu�rio � convertida para uma consulta em um formato definido pelo mecanismo de busca. Como uma analogia, pense na convers�o de um filtro para uma consulta SQL a ser executada em um banco de dados.

A consulta � ent�o executada utilizando como aux�lio o �ndice constru�do anteriormente. � importante ressaltar novamente a import�ncia do �ndice para uma execu��o eficiente da consulta. Sem ele, as buscas teriam que varrer todo o conte�do em busca da informa��o requerida. Em um programa de e-mail ou em seu Desktop, o tempo necess�rio para essa varredura pode ser aceit�vel, mas para a Internet � invi�vel imaginarmos essa situa��o.

Finalizada a execu��o da busca, os resultados s�o finalmente apresentados para o usu�rio, geralmente ordenados por relev�ncia ou outro crit�rio que facilite localizar a informa��o desejada.

O Lucene

O Lucene � um framework que foi criado por Doug Cutting em 2000 como um projeto pessoal, mas que vem desde setembro de 2001 sendo mantido pelo grupo Apache. No momento da escrita deste artigo, sua �ltima vers�o era a 3.5.0. Ele auxilia nas etapas de constru��o e an�lise de documentos, indexa��o, constru��o e execu��o de buscas, e o gerenciamento dos resultados. Desta maneira, a aplica��o que utiliza o Lucene � ainda respons�vel por duas partes fundamentais: a aquisi��o de conte�do e a interface pela qual o usu�rio ir� interagir.

...

Quer ler esse conteúdo completo? Tenha acesso completo

Tecnologias:

Confira outros conte�dos:

Introdu��o ao JDBC

Novidades do Java

Teste unit�rio com JUnit

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Devmedia Em 2012

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Conhecendo o Lucene - Revista Java Magazine 104

O artigo apresenta os componentes comumente encontrados em mecanismos de buscas modernos e como o framework Apache Lucene pode auxiliar na constru��o de solu��es desse tipo.