Motivação

Existem atualmente muito mais dados na forma de textos eletrônicos do que em tempos passados, porém grande parte desses dados não são aproveitados e dificilmente uma análise mais detalhada sobre o seu conteúdo é realizada. Muitos desses textos podem ser encontrados em fóruns, redes sociais, sites de avaliação de produtos, documentos PDF, entre outros. Dentro desse contexto, é muito difícil uma pessoa ser capaz de ler, entender e sintetizar megabytes de texto, o que, em contrapartida, gerou novas pesquisas no sentido de desenvolver técnicas para exploração e administração da informação. Como consequência, surgiram ferramentas para extrair dados desse tipo de documento, como o PDFBox.

O conhecimento sobre ferramentas para recuperação de informação em documentos de texto, tal como o PDFBox, é de suma importância para desenvolvedores que precisam manipular arquivos no formato PDF e utilizar o seu conteúdo para algum tipo de processamento específico, como indexação ou busca por informações. O PDFBox possibilita a extração de conteúdo por páginas ou parágrafos, além de criar novos documentos, manipular imagens, converter PDF em imagens, adicionar novo conteúdo a documentos existentes ou até mesmo extrair dados por meio de expressões regulares.

Passo 1: Inserção de conteúdo em documentos PDF

O primeiro exemplo que será desenvolvido com o PDFBox consiste em inserir alguma informação em um PDF já existente. Na Figura 1 podemos visualizar o documento a ser utilizado. O leitor pode optar por qualquer documento para realizar essa operação.

Quer ler esse conteúdo completo? Tenha acesso completo