Extração de Documentos de sites externos e Indexação

22/11/2016

0

Bom dia, estou precisando desenvolver um sistema parecido com um motor de busca, para pesquisar por exemplo todo documento que tiver presente a palavra "contratação direta", explicando melhor, estou precisando indexar os arquivos do diário oficial do estado ("http://www.tjma.jus.br/inicio/diario") , todos os diários estão abaixo desta url, por exemplo ("http://www3.tjma.jus.br/diario/diarios/diario_21112016_112642_213.pdf.pdf") vai me retornar um arquivo pdf, então eu teria que acessar todos os diretórios abaixo de "http://www.tjma.jus.br/inicio/diario", ler os arquivos pdf, extrair o texto e criar os índices com o Apache Lucene, a questão é, como posso acesar os arquivos pdfs deste diretório?
Ricardo Pereira

Ricardo Pereira

Responder

Assista grátis a nossa aula inaugural

Assitir aula

Saiba por que programar é uma questão de
sobrevivência e como aprender sem riscos

Assistir agora

Utilizamos cookies para fornecer uma melhor experiência para nossos usuários, consulte nossa política de privacidade.

Aceitar