Buscas textuais com Apache Lucene

Por que eu devo ler este artigo:O tema abordado neste artigo � �til na implementa��o de sistemas de busca textual que requerem alto desempenho diante de grandes volumes de dados. Atrav�s de uma ferramenta leve e de f�cil instala��o, o Apache Lucene oferece uma solu��o open source e multiplataforma para realiza��o de consultas sobre dados textuais de diferentes origens e formatos, tais como p�ginas HTML e arquivos PDF.
Autores: Wanderley Panosso e Paulo Quicoli

Com o crescimento da Web e da Computa��o em Nuvem, fica cada vez mais �bvio um grande desafio presente quando o objetivo � desenvolver softwares que possam atender a demandas reais, por�m inimagin�veis em um passado n�o muito distante: pesquisas eficiente e de alto desempenho. Devido ao grande volume de informa��o complexa existente, somado � quantidade de usu�rios que utilizariam simultaneamente esses softwares, executar pesquisas relevantes e em tempo satisfat�rio n�o � mais uma tarefa simples e muitas vezes pode vir a ser um fator determinante para a aceita��o dos usu�rios.

O fato � que em geral SGBDs (Sistemas Gerenciadores de Bancos de Dados) convencionais normalmente n�o s�o mais o suficiente para armazenar e ao mesmo tempo executar pesquisas nos volumes de dados existentes e acabam se tornando um dos maiores gargalos para a escalabilidade em sistemas que requerem tais habilidades. Imagine, por exemplo, motores de pesquisa web como Google e Bing dependendo de bancos de dados relacionais famosos no mercado. Agora imagine milh�es de usu�rios executando consultas em um per�odo menor que um segundo e esperando receber resultados ordenados pelas informa��es mais relevantes sobre os termos pesquisados em um tempo aceit�vel. Provavelmente qualquer SGBD relacional n�o seria capaz de executar tal tarefa e o motivo � que eles simplesmente n�o s�o feitos para isso, j� que s�o projetados primeiramente para garantir a integridade das informa��es, o que � quase sempre feito por meio de transa��es.

Por isso, para resolver esses problemas � primordial utilizar um motor de pesquisa (Search Engine) ou sistema de recupera��o de informa��o (Retrieval Information System). Esse tipo de solu��o objetiva garantir que pesquisas em grandes volumes de informa��o possam ser executadas satisfatoriamente. Um ponto fundamental a ser compreendido � que esse tipo de solu��o normalmente tem como objetivo prim�rio indexar grandes volumes de informa��es a serem pesquisadas, caso a integridade das informa��es seja de extrema import�ncia � imprescind�vel que as mesmas tamb�m sejam armazenadas em outros meios como bancos de dados tradicionais, por exemplo. Isso ficar� mais claro ao decorrer desse artigo.

No caso de Google e Bing, estes possuem solu��es pr�prias e customizadas para atender todas as necessidades dos enormes ecossistemas ao qual eles pertencem, por�m existem v�rias outras solu��es de sistemas de recupera��o de informa��es que resolvem a maioria dos problemas relacionados a pesquisas em grandes volumes de informa��o que podem ser utilizados no desenvolvimento de v�rias solu��es de software.

Este artigo trata especificamente do Apache Lucene, uma biblioteca de busca textual que permite executar pesquisas de alto desempenho em volumes n�o triviais de informa��es. Lucene � open source e est� licenciada sob a licen�a Apache, o que permite sua utiliza��o tanto em softwares de c�digo aberto como em aplica��es comerciais sem nenhum problema legal. Lucene tamb�m � utilizada em v�rios sistemas de grande porte mundialmente conhecidos, como � o caso da Amazom e do Twitter que recebem at� v�rios milhares de consultas por segundo, dependendo da hora e do dia. Um outro nome que est� se tornando mundialmente conhecido, pelo menos entre desenvolvedores de software, � Elasticseach, uma plataforma online especialista em indexa��o e consultas de grandes volumes de dados, utilizada pelo portal globo.com, e que tamb�m utiliza Apache Lucene como seu motor de pesquisas.

�ndices

Uma das pe�as fundamentais de motores de pesquisa textual s�o os �ndices. Esses motores coletam as informa��es a serem indexadas, as processam e criam estruturas espec�ficas que permitem a execu��o de consultas com performance superior a outros tipos de consultas que n�o fazem uso dessas t�cnicas. Essas estruturas s�o chamadas de �ndices. Sem indexar as informa��es, executar qualquer tarefa seria muito custoso, visto que seria necess�rio verificar todo o conte�do da base de informa��es atrav�s da for�a bruta, o que causaria lentid�o em casos onde a quantidade de dados � muito extensa. Por exemplo, executar uma pesquisa na web seria impratic�vel.

Ex ...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO

Desbloqueie toda a DevMedia

+2000 artigos e v�deos
+40 trilhas sobre Front-end, Back-end, IA e muito mais
+5000 exerc�cios pr�ticos
Mentorias ao vivo individuais

at� 50% OFF

A partir de

R$ 69 /m�s

// 25 ANOS FORMANDO PROGRAMADORES

APRENDA A

PROGRAMAR DE VERDADE

Um caminho claro do zero ao avan�ado, com pr�tica de verdade.

Voc� constr�i projetos reais desde o come�o e sai sabendo programar sozinho, sem copiar c�digo de professor.

Forma��es completas

+40 Projetos

+5000 exerc�cios

+40 Tecnologias

Mentorias individuais

Suporte com IA

Comunidade de alunos

QUERO COME�AR AGORA

Confira outros conte�dos:

Por Devmedia Em 2016

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Marcus Junior

Ol� professor, estou tentando fazer isto para um trabalho na faculdade, mas apareceu o seguinte erro:

Erro CS1061 ?List<Book>? n�o cont�m uma defini��o para "FirstOrDefault" e n�o foi poss�vel encontrar nenhum m�todo de extens�o "FirstOrDefault" que aceite um primeiro argumento do tipo ?List<Book>? (voc� est� se esquecendo de usar uma diretiva ou uma refer�ncia de assembly?) DemoLucene1 C:\Users\onlym\source\repos\DemoLucene1\BookDatabase.cs 54 Ativo

Al�m disso, na parte de criar diret�rio, n�o ficou claro como proceder, � pra digitar na classe programa? Eu criei as classes book e BookDatabase.

há +1 ano

Ver coment�rio anterior

Joel Rodrigues

Ol�, Marcus. Tudo bem?

Sobre o erro, adicione a seguinte instru��o na classe:

using System.Linq;

J� sobre os diret�rios, o pr�prio framework vai criar diret�rios para cada �ndice na pasta raiz do execut�vel da aplica��o. Caso surja alguma d�vida sobre onde vai cada bloco de c�digo, voc� pode baixar os fontes do projeto no topo da p�gina e abrir no Visual Studio. Assim voc� consegue ver cada item do projeto.

Abra�o.

há +1 ano

Buscas textuais com Apache Lucene

Conheceremos neste artigo a biblioteca Lucene.Net, utilizada para realiza��o de buscas textuais de alta precis�o e desempenho com o Apache Lucene, solu��o utilizada por grandes empresas como Amazon e Twitter.

Desbloqueie toda a DevMedia

Confira outros conte�dos: