Turbine suas buscas com o framework Hibernate Search

Turbine suas buscas: O Hibernate Search � um framework cujo objetivo principal � habilitar o uso de buscas textuais em aplica��es baseadas em JPA/Hibernate. As configura��es de indexa��o s�o quase que totalmente baseadas em anota��es, e a integra��o com o Lucene � executada de forma autom�tica e transparente. J� o Apache Tika � uma biblioteca que prov� uma API unificada para extra��o de conte�do em diversos tipos de arquivos bin�rios. � poss�vel integrar ambos os frameworks atrav�s do mecanismo de bridges provido pelo Hibernate Search.

Este artigo apresenta os componentes necess�rios para constru��o de um mecanismo de busca, e discute brevemente o papel do Apache Lucene neste contexto. Em seguida, o Hibernate Search � apresentado, mostrando como integrar o Lucene com o popular framework de persist�ncia Hibernate. Por fim, discute-se tamb�m o Apache Tika, e como � poss�vel explorar suas funcionalidades de extra��o de conte�do de arquivos bin�rios em conjunto com o Hibernate Search e o Lucene.

Em que situa��o o tema � �til: Este tema pode ser �til em diversas situa��es. Primeiro, toda aplica��o baseada em JPA/Hibernate que possui requisitos de mecanismos de buscas textuais pode se beneficiar do uso do Hibernate Search, em detrimento do uso direto do Lucene. Em segundo lugar, aplica��es que precisam extrair conte�do de arquivos bin�rios, tais como PDFs e DOCs, pode utilizar a API do Apache Tika para tal. Por fim, aplica��es que possuem ambos os requisitos podem se beneficiar da integra��o dos dois frameworks, tal como apresentado neste artigo.

O grande volume de informa��es a que temos acesso gera uma crescente necessidade de mecanismos de buscas que sejam eficientes, precisos e confi�veis. Encontrar a informa��o desejada em um computador pessoal deixou de ser simplesmente uma quest�o de navegar para o diret�rio correto, e hoje envolve poderosos mecanismos de indexa��o e buscas, tais como o �Spotlight� da Apple e o finado Google Desktop. Esse problema � elevado a sua �ltima pot�ncia quando o problema de encontrar o que se deseja � transportado para a Web e suas bilh�es de p�ginas. Ainda que existam poderosos mecanismos de busca, tais como o Google e Bing, muitas vezes n�o conseguimos encontrar o que procuramos, ou perdemos p�ginas que gostar�amos de rever.

Nas �ltimas edi��es da revista esse assunto tem sido abordado extensivamente. Por exemplo, na edi��o 104, foi publicado um artigo de nossa autoria dissecando o Lucene, um poderoso framework que auxilia na constru��o de mecanismos de buscas em aplica��es Java. J� as edi��es 106 e 107 tratam dos projetos Apache Nutch e Solr, voltados, respectivamente, para varreduras na Web e implementa��o de um servidor de buscas.

Esta edi��o retoma o assunto e apresenta dois outros projetos: o Hibernate Search e o Apache Tika. O primeiro � um projeto que tem como objetivo a integra��o do Hibernate com o Lucene, enquanto o segundo pode ser utilizado para a extra��o de conte�do de uma infinidade de formatos de arquivos.

Iniciamos apresentando o Hibernate Search atrav�s da constru��o de uma aplica��o de cadastro de curr�culos. Em seguida, falamos brevemente sobre o Tika, e, por fim, mostramos como ambos podem trabalhar em conjunto. Entretanto, antes de iniciar, vamos revisar rapidamente os passos necess�rios para implementar buscas em nossas aplica��es.

Mecanismos de buscas e o Lucene

Normalmente, a implementa��o de mecanismos de buscas nas aplica��es seguem uma mesma estrutura, cuja vis�o em alto n�vel pode ser observada na Figura 1. Em um extremo da figura temos o conte�do propriamente dito, e em outro, os usu�rios que desejam realizar pesquisas sobre esse conte�do. Para que a busca seja feita de forma eficiente, os mecanismos de busca baseiam-se nos chamados �ndices, que s�o estruturas de dados que permitem que os termos pesquisados sejam encontrados rapidamente, assim como a localiza��o desses termos dentro do conte�do.

� comum dividirmos as aplica��es de busca em dois grandes grupos de funcionalidades: a constru��o do �ndice e as consultas que s�o realizadas com o seu aux�lio.

Para a constru��o do �ndice, o primeiro passo consiste na etapa de aquisi��o do conte�do. Por exemplo: o Google possui rob�s, chamados de crawlers, que navegam pela Web a procura de novas p�ginas a serem indexadas. Uma vez obtido o conte�do, eles s�o transformados nos chamados �documentos�, que nada mais s�o que representa��es can�nicas, definidas pelo mecanismo de busca, e que representam o conte�do obtido. Por exemplo: as buscas embutidas nos sistemas operacionais s�o capazes de encontrar palavras-chave em arquivos PDF, documentos Word ou at� mesmo em mensagens armazenadas em clientes de e-mail. Portanto, nesta etapa do processo de indexa��o, todos esses diferentes tipos de documentos s�o convertidos para um formato comum, composto por um conjunto de campos padronizados, tais como autor, data de cria��o e o pr�prio conte�do.

Em seguida, esses documentos s�o analisados a fim de tornar o �ndice mais efetivo. Alguns processamentos simples, tais como a convers�o de mai�sculas para min�sculas, e a elimina��o de conectivos, tais como �a�, �e� e �ou�, s�o comuns durante essa etapa. Todavia, procedimentos mais complexos tamb�m s�o utilizados. Por exemplo, � poss�vel que as palavras sejam processadas a fim de reduzi-las � sua raiz morfol�gica. Assim, termos como �computa��o� e �computadores� s�o transformados em uma raiz comum, �computa�, permitindo que termos relacionados sejam encontrados. O resultado da an�lise � um conjunto de tokens, que s�o as �palavras� que efetivamente far�o parte do �ndice. Esta etapa � uma das mais importantes do processo de indexa��o, podendo determinar o sucesso ou o fracasso da aplica��o. Por fim, a �ltima etapa do processo de indexa��o alimenta o �ndice com os tokens obtidos a partir do documento analisado.

J� no outro extremo da arquitetura temos os usu�rios, que interagem com a aplica��o atrav�s de uma interface na qual ele entra com a busca desejada. Em seguida, h� uma etapa em que a entrada do usu�rio � convertida para uma consulta em um formato definido pelo mecanismo de busca. Como uma analogia, pense na convers�o de um filtro para uma consulta SQL a ser executada em um banco de dados.

A consulta � ent�o executada utilizando como aux�lio o �ndice constru�do anteriormente. � importante ressaltar novamente a import�ncia do �ndice para uma execu��o eficiente da consulta. Sem ele, as buscas teriam que varrer todo o conte�do em busca da informa��o requerida. Em um programa de e-mail ou em seu Desktop, o tempo necess�rio para essa varredura pode ser aceit�vel, mas para a Internet � invi�vel imaginarmos essa situa��o. Por fim, os resultados s�o finalmente apresentados para o usu�rio, geralmente ordenados por relev�ncia ou outro crit�rio que facilite localizar a informa��o desejada.

**Figura 1**. Componentes de uma aplica��o de busca (adaptado de [5]).

A Figura 1 mostra tamb�m as etapas deste processo que s�o o foco do Lucene. A pr�xima se��o discute brevemente como utilizar o Lucene diretamente, mas o objetivo deste artigo � mostrar como o seu uso pode ser simplificado e flexibilizado atrav�s dos frameworks Hibernate Search e Apache Tika.

Hibernate Search

O uso de bancos de dados relacionais aliados a frameworks para seu gerenciamento, tais como o Hibernate, s�o praticamente onipresentes (ub�quos) em nosso dia-a-dia como desenvolvedor. Ao mesmo tempo, requisitos de execu��o de buscas textuais complexas em tabelas no banco de dados est�o se tornando cada vez mais comuns. Este tipo de busca normalmente n�o pode ser expressa atrav�s de consultas SQL, ou, se expressas, s�o pesadas e ineficientes.

...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO