Buscas na web com Apache Solr e Nutch - Revista Java Magazine 106

Você precisa estar logado para dar um feedback. Clique aqui para efetuar o login
Para efetuar o download você precisa estar logado. Clique aqui para efetuar o login
Confirmar voto
0
 (4)  (0)

Nesse artigo serão apresentadas duas soluções livres que podem ser usadas na construção de máquinas de busca para ambientes web: o Apache Nutch e o Solr. Será descrito ainda como essas duas aplicações podem operar de forma integrada.

Artigo no estilo Curso

Do que se trata o artigo:

Nesse artigo serão apresentadas duas soluções livres que podem ser usadas na construção de máquinas de busca para ambientes web: o Apache Nutch e o Solr. Será descrito ainda como essas duas aplicações podem operar de forma integrada.

Em que situação o tema útil:

A busca da informação em ambientes web tem se tornado um serviço cada vez mais essencial nos diferentes contextos. Logo, conhecer soluções livres que facilitem a viabilização deste tipo de demanda constitui um diferencial especialmente em ambientes onde a informação agrega valor estratégico.

Resumo DevMan:

A web vem se consolidando como a principal fonte de informações para um público cada vez maior e mais heterogêneo. Fatores como o volume de informações disponível e a facilidade de acesso a elas têm se mostrado preponderantes na escolha desse mecanismo de divulgação e recuperação da informação. Nesse contexto, serão apresentadas duas ferramentas para construção de uma infraestrutura de busca na web: Nutch e Solr. A integração de ambos possibilita que uma máquina de busca possa ser implementada de maneira simples em ambientes de Intranet ou mesmo sobre a própria Internet.

Com o advento da Internet, a busca pela informação na web tem se tornado cada vez mais ampla e popular. Uma evidência disso é apontada por Manning et al [14] ao descrever uma mudança de cultura no âmbito da busca pela informação. Segundo Manning, estudos realizados na década de 90 indicavam que a maior parte das pessoas preferia buscar informações por meio de outras pessoas em lugar de recorrer a sistemas de recuperação da informação. Em 2004, porém, outro estudo (Pew Internet Survey) mostrou que 92% dos usuários de Internet encaravam a própria Internet como um bom lugar para se buscar diariamente informação.

Apesar dessa significativa ascensão no uso da Internet, a busca da informação nesse espaço tende a constituir uma atividade ineficiente e/ou ineficaz. Essa tendência deve-se a fatores que se consolidaram como inerentes ao contexto web [1]:

· Volume e diversidade de informações disponíveis;

· Espontaneidade e velocidade com que os conteúdos se constroem na Rede sem uma instância reguladora para dirigi-la ou ordená-la;

· “Descentralidade” na publicação, variedade de autores, idiomas, interesses e usos da informação;

· Grau de volatilidade das informações disponibilizadas.

A título de exemplo das dimensões envolvidas nesse universo de informação digital, Jian et al [11] faz referência a The Internet Archive [2] – uma coleção de páginas web existente desde 1996. Até Outubro de 2003, esse sítio abarcava aproximadamente 300 terabytes de dados, e vinha apresentando uma taxa de crescimento de 12 terabytes/mês.

Nesse cenário, portanto, passa a residir um dos grandes desafios da área de recuperação da informação (RI): prover tecnologias de RI que sejam eficientes, escaláveis e confiáveis. De fato, conectar os usuários com o conteúdo de que precisam e quando precisam não é mais opcional. É uma necessidade que deve ser atendida através de interfaces e dos motores de busca que operam em sites e portais da internet. E essa necessidade se mostra ainda mais essencial diante da expectativa criada pelos próprios usuários, os quais esperam, cada vez mais, resultados de alta qualidade para uma busca, e interfaces que os ajudem a encontrar a informação que estão procurando de maneira precisa, rápida, fácil e organizada [13].

Assim, conforme Abdala et al [13], de posse dessa perspectiva de que não basta a informação estar disponível na Internet, mas que ela precisa ser identificada e buscada por diferentes interfaces e motores de busca, torna-se fundamental garantir que os conteúdos armazenados em sites web sejam indexados por portais buscadores e por serviços de informação.

Motores de Busca

As primeiras gerações de ferramentas de busca web tentaram simplesmente transferir as técnicas clássicas de recuperação de documentos para esse novo contexto, mudando apenas a escala de abrangência, a qualidade e a relevância dos resultados. No entanto, apresentaram significativas limitações quanto à categorização e classificação dos resultados das pesquisas. Embora essas técnicas de RI ainda continuem sendo necessárias no âmbito da web, elas já não são suficientes nessa rede de informações sem precedentes em escala, sem uma coordenação centralizada na sua criação, e com uma enorme diversidade de cenários e objetivos de seus usuários [14].

Os modelos clássicos (booleano, vetorial e probabilístico) utilizados no processo de recuperação da informação apresentam estratégias de busca baseadas na relevância de documentos para uma dada consulta (query) [15]. Estes modelos consideram que cada documento é representado por um conjunto de palavras-chave representativas, ou termos de indexação, que são consideradas como mutuamente independentes. Como um mesmo termo pode aparecer em diferentes documentos, é necessário distinguir a ocorrência de um termo Ki em um documento Dj da ocorrência deste mesmo termo em outro documento Dl. Para isso, a cada par termo-documento [Ki, Dj] associa-se um peso Wij. Este peso deve ser utilizado para refletir a importância do termo Ki no documento Dj.

De acordo com Branski et al [12], buscadores, ferramentas de busca ou mecanismos de busca são sistemas especializados utilizados na recuperação de informação na Internet e caracterizam-se, essencialmente, pelo funcionamento de seu motor de busca. De maneira geral, os componentes básicos de um sistema de busca web apresentam o seguinte fluxo de funcionamento:

1. O motor de busca (Web crawler) rastreia a informação disponível na web, periodicamente, navegando de página em página, ou de site em site, extraindo os documentos, as palavras, os termos que melhor representam a informação capturada – Crawling;

2. Todo o conteúdo extraído é indexado e armazenado em bases de dados – Indexing;

3. Usuários utilizam a interface de busca para entrar com consultas;

"

A exibição deste artigo foi interrompida :(
Este post está disponível para assinantes MVP

 
Você precisa estar logado para dar um feedback. Clique aqui para efetuar o login
Receba nossas novidades
Ficou com alguma dúvida?