Extração de Documentos de sites externos e Indexação

Java

Engenharia de Software

Infraestrutura

22/11/2016

Bom dia, estou precisando desenvolver um sistema parecido com um motor de busca, para pesquisar por exemplo todo documento que tiver presente a palavra "contratação direta", explicando melhor, estou precisando indexar os arquivos do diário oficial do estado ("http://www.tjma.jus.br/inicio/diario") , todos os diários estão abaixo desta url, por exemplo ("http://www3.tjma.jus.br/diario/diarios/diario_21112016_112642_213.pdf.pdf") vai me retornar um arquivo pdf, então eu teria que acessar todos os diretórios abaixo de "http://www.tjma.jus.br/inicio/diario", ler os arquivos pdf, extrair o texto e criar os índices com o Apache Lucene, a questão é, como posso acesar os arquivos pdfs deste diretório?
Ricardo Pereira

Ricardo Pereira

Curtidas 0
POSTAR