Buscas na web com Apache Solr e Nutch - Revista Java Magazine 107 - Parte 2

Demais posts desta s�rie:
Java EE 6: Da configura��o aos testes - Parte 1
Java EE 6: Da configura��o aos testes - Parte 3

Artigo no estilo: Curso

Do que se trata o artigo:

Nesse artigo ser� descrita uma estrat�gia para implementa��o do recurso de recupera��o da informa��o em ambientes web. Ser� utilizada a integra��o entre duas solu��es livres � Apache Nutch e Solr � para constru��o de uma m�quina de busca.

Em que situa��o o tema �til:

A necessidade de acesso eficiente e eficaz �s informa��es dispon�veis em ambiente web � cada vez mais crucial para diferentes interesses e estrat�gias. A integra��o Apache Nutch-Solr constitui uma alternativa vi�vel para recupera��o da informa��o nesse contexto.

Resumo DevMan:

A necessidade pela busca da informa��o em ambientes web torna-se cada vez mais cr�tica e estrat�gica. E atender essa demanda de forma eficiente e eficaz constitui um desafio cuja complexidade � diretamente impactada pelo crescimento do volume de informa��o on-line. Frente a essa realidade, construir solu��es de recupera��o da informa��o sobre uma infraestrutura de busca web j� consolidada, constitui uma abordagem segura para o provimento de um servi�o dessa natureza. Nesse artigo, ser� apresentado como duas aplica��es open source, o Apache Nutch e Solr, podem funcionar de forma integrada a fim de suportar um mecanismo de busca. Para abstra��o da arquitetura criada, ser� apresentada ainda uma pequena aplica��o de interface an�loga �s m�quinas de busca tradicionais.

Nos �ltimos anos, a Internet consolidou-se como a principal fonte para a busca da informa��o, seja ela acad�mica, comercial, de entretenimento ou de qualquer outra esp�cie. Para possibilitar e facilitar esse processo, uma vasta gama de portais e sites da web oferecem ferramentas, motores, mecanismos ou interfaces de busca que se prop�em a levar o usu�rio � informa��o desejada [8].

Nesse contexto, a parte inicial do artigo apresentou duas solu��es livres que podem ser exploradas para implementa��o de um mecanismo de recupera��o da informa��o. O foco foi dado na integra��o de ambas as aplica��es, cujo funcionamento em conjunto disponibiliza a infraestrutura necess�ria para o funcionamento de uma m�quina de busca no �mbito da web.

A primeira solu��o abordada foi o Apache Nutch � uma flex�vel engine open source projetada para inspecionar p�ginas na web. Dentre suas principais funcionalidades constam a recupera��o, extra��o de links e parser de p�ginas, al�m da indexa��o de dados. Na parte 1 do artigo, o Nutch foi instalado e configurado para atuar como crawler de uma engine de busca.

Na sequ�ncia, o Apache Solr foi apresentado como plataforma de consultas. Al�m da funcionalidade prim�ria de retornar listas de resultados para um dado conjunto de termos consultados, o Solr disponibiliza servi�os como o highlighting de termos pesquisados, navega��o baseada em facets e auto-complete de queries. Da mesma forma que o Nutch, o Solr foi instalado e configurado para compor uma engine de busca.

Uma vez que ambas as solu��es ficaram preparadas para funcionar em integra��o, foram definidas fronteiras dentro de um dom�nio qualquer (escolheu-se o ascii-code.com) a fim de delimitar a a��o da ferramenta de busca constitu�da por essa parceria. Nesse ponto, algumas quest�es permaneceram em aberto:

� Apesar de estarem configuradas para trabalharem em conjunto, como, efetivamente, Nutch e Solr executam seus processos de forma integrada?

� Como abstrair-se a infraestrutura Nutch-Solr do usu�rio final atrav�s de uma interface amig�vel?

Assim, na sequ�ncia do artigo ser�o descritos os mecanismos de comunica��o entre as duas ferramentas e como outras funcionalidades, nativas das pr�prias ferramentas, podem ser agregadas � m�quina de busca proposta. Al�m disso, como o objetivo final � possibilitar que as informa��es e conte�dos de um dado dom�nio sejam consultados e recuperados de forma r�pida, f�cil e organizada [9], uma se��o ser� dedicada a apresentar uma aplica��o web, a qual ser� chamada de Localiza, cujo objetivo � abstrair a engine de busca e prover uma interface de consulta amig�vel ao usu�rio final.

Buscas na web com a integra��o Nutch-Solr

Assumindo-se que tanto o Nutch como o Solr foram adequadamente instalados e configurados em conformidade com a parte inicial do artigo, o primeiro passo para a disponibiliza��o do mecanismo de busca envolver� a inicializa��o do servi�o de consultas. Naturalmente, nesta etapa, n�o haver� qualquer dado a ser retornado em resposta a uma query, uma vez que nenhuma informa��o foi previamente carregada na base de dados utilizada por esse servi�o.

Assim, ser� iniciado o servidor Jetty que, por sua vez, tornar� a aplica��o Solr ativa. Para isso, ser� efetuada uma chamada ao .jar de inicializa��o do Jetty. O comando executado � apresentado na Listagem 1, e o arquivo acionado encontra-se em /example, dentro do diret�rio de descompacta��o do Solr.

Listagem 1. Comando para start do Apache Solr.

java -jar start.jar

Ap�s a execu��o da Listagem 1, uma maneira de verificar o correto start da aplica��o � chamar sua interface de administra��o pelo browser. Isto pode ser feito pela URL http://localhost:8983/solr/admin/.

A Figura 1 apresenta a interface de administra��o do Solr que deve ser renderizada.

Figura 1. Interface de administra��o do Solr.

Uma vez que a aplica��o de consultas est� ativa, � preciso agora carreg�-la com dados. Como j� dito anteriormente, neste artigo essa responsabilidade foi atribu�da ao Nutch. Assim, de posse das configura��es definidas previamente, o pr�ximo passo � executar o algoritmo da Listagem 2 a fim de que os dados possam ser capturados das fronteiras definidas pelos arquivos seed.txt (Listagem 3) e regex-urlfilter.txt (Listagem 4), ambos apresentados na parte 1 deste artigo. Os passos 2.1 a 2.6 da Listagem 2 podem ser executados atrav�s de uma �nica chamada ao script nutch do diret�rio NUTCH_RUNTIME_HOME/bin. A Listagem 5 apresenta o comando que deve ser acionado a fim de disparar todo o fluxo de execu��o do crawler Nutch. Dois aspectos deste comando merecem uma considera��o antecipada:

1. O comando foi executado a partir do diret�rio NUTCH_RUNTIME_HOME;

2. Para fins de organiza��o, criou-se, dentro de NUTCH_RUNTIME_HOME, o diret�rio crawl, que conter� as bases de dados geradas pelo Nutch.

Listagem 2. Algoritmo do fluxo b�sico de execu��o do Nutch.


   1. Injetar URLs iniciais.
   2. Executar os pr�ximos passos LOOP vezes
   2.1. Gerar lista de URLs.
   2.2. Buscar conte�do das p�ginas.
   2.3. Efetuar o parser do conte�do de cada p�gina.
   2.4. Atualizar CrawlDB.
   2.5. Atualizar LinkDB.
   2.6. Indexar segmentos.

Listagem 3. Conte�do do arquivo seed.txt de URLs inicias.

http://www.ascii-code.com/

Listagem 4. Conte�do do arquivo regex-urlfilter.txt com fronteiras estendidas.

-^(file|ftp|mailto):
   
  -\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$
   
  +^http://www.ascii-code.com/
  +^http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html
  +^http://www.w3.org/Protocols/rfc2616/rfc2616.html
  +^http://www.ietf.org/rfc/

Listagem 5. Comando que dispara o crawler Nutch.

bin/nutch crawl urls/ -solr http://localhost:8983/solr -dir crawl/ -depth 5 -topN 5

Foram definidos para o comando crawl da Listagem 5 os seguintes par�metros:

� -solr: URL da aplica��o Solr que receber� os dados do processo de crawler;

� -dir: nome do diret�rio no qual o crawler alocar� os dados capturados e gerados;

� -depth: encarando os links e as p�ginas web como uma �rvore composta de liga��es e n�s, respectivamente, esse par�metro define a profundidade m�xima de inspe��o a ser alcan�ada pelo crawler nessa �rvore, tendo como refer�ncia o n�-raiz, isto �, a p�gina inicial (seed.txt). Outra maneira de entender esse par�metro � por observar que ele define o n�mero de repeti��es do fluxo de crawler � a vari�vel de itera��o (LOOP) do algoritmo da Listagem 2;

� -topN: estabelece o n�mero m�ximo de p�ginas que ser�o recuperadas em cada n�vel (tendo em mente a mesma analogia com a estrutura de �rvore do par�metro -depth) alcan�ado pelo crawler.

Uma pr�tica comumente adotada � a de definir-se, nas etapas iniciais de implanta��o de uma ferramenta de RI, uma profundidade reduzida de alcance do processo de crawler (novamente fazendo-se refer�ncia � analogia da web como uma estrutura de �rvore), ou seja, s�o atribu�dos aos par�metros -depth e -topN valores significativamente menores quando comparados aos valores necess�rios para a inspe��o completa de um dom�nio. Consequentemente, o n�mero de p�ginas recuperadas em cada n�vel de varredura tamb�m � limitado. O objetivo dessa conten��o inicial do crawler � o de possibilitar uma verifica��o de quais p�ginas est�o sendo inspecionadas e de quais n�o est�o sendo submetidas a esse processo. Como neste artigo o volume de p�ginas envolvidas no processo de crawler � bem resumido, apenas sete p�ginas, a defini��o de cinco itera��es (-depth) para o processo de varredura do Nutch � suficiente para alcan�ar as p�ginas contidas nas fronteiras do processo, assim como o estabelecimento da recupera��o de cinco p�ginas por itera��o (-topN).

Conforme exposto pela Figura 2, espera-se que o processo de crawler finalize tendo como resultado a inspe��o de sete p�ginas. Para fins de verifica��o dos dados obtidos por essa varredura, a Listagem 6 apresenta alguns comandos dispon�veis no script bin/nutch.

Figura 2. Fluxo de inspe��o do Nutch.

Listagem 6. Comandos para verifica��o das p�ginas inspecionadas pelo crawler.


  bin/nutch readdb crawl/crawldb -dump dump
  bin/nutch readdb crawl/crawldb -stats ...

Quer ler esse conteúdo completo? Tenha acesso completo

Confira outros conte�dos:

Por Thiago Em 2012

M�todo para iniciantes

sem base nenhuma

Mentorias individuais

quando voc� travar

+40 projetos reais

para o seu portf�lio

+5000 exerc�cios

para fixar o conte�do

Suporte IA

que te ensina

No code e automa��es

pra entregar mais r�pido

Veja os resultado dos nossos alunos

Conquistas reais de quem est� aplicando o m�todo

Conhecer Planos

<Perguntas frequentes>

Carreira

Metodologia

Assinatura e Pagamentos

Cadastro

Buscas na web com Apache Solr e Nutch - Revista Java Magazine 107 - Parte 2

Nesse artigo ser� descrita uma estrat�gia para implementa��o do recurso de recupera��o da informa��o em ambientes web. Ser� utilizada a integra��o entre duas solu��es livres � Apache Nutch e Solr � para constru��o de uma m�quina de busca.

Confira outros conte�dos:

<Perguntas frequentes>

Por onde devo iniciar os estudos?

Em quanto tempo vou me tornar um programador?

Eu preciso de um diploma de faculdade para come�ar a atuar como programador?

Por que a programa��o se tornou a profiss�o mais promissora da atualidade?

Quais s�o os principais diferenciais da DevMedia?

O que eu irei aprender estudando pela DevMedia?

Quais as vantagens de aprender programa��o atrav�s da linguagem JavaScript?

A plataforma oferece certificados?

A plataforma tem suporte ao aluno, como funciona?

A DevMedia me forma como programador Full Stack?

Tem hor�rio para as aulas?

Por que a DevMedia n�o usa videoaulas em sua did�tica?

Preciso de um computador espec�fico para estudar na DevMedia?

Eu consigo estudar pelo celular?

A DevMedia tem aplicativo?

Preciso estar na faculdade para acompanhar os estudos na DevMedia?

Quais s�o os planos de assinatura dispon�veis?

Adquirindo o plano, terei acesso a todo o conte�do?

A plataforma tem planos vital�cios?

A DevMedia tem fidelidade?

Como funciona o cancelamento?

Como excluir meus dados da plataforma?