Como converter PDF para JPG utilizando o PDFBox

Motiva��o

Existem atualmente muito mais dados na forma de textos eletr�nicos do que em tempos passados, por�m grande parte desses dados n�o s�o aproveitados e dificilmente uma an�lise mais detalhada sobre o seu conte�do � realizada. Muitos desses textos podem ser encontrados em f�runs, redes sociais, sites de avalia��o de produtos, documentos PDF, entre outros. Dentro desse contexto, � muito dif�cil uma pessoa ser capaz de ler, entender e sintetizar megabytes de texto, o que, em contrapartida, gerou novas pesquisas no sentido de desenvolver t�cnicas para explora��o e administra��o da informa��o. Como consequ�ncia, surgiram ferramentas para extrair dados desse tipo de documento, como o PDFBox.

O conhecimento sobre ferramentas para recupera��o de informa��o em documentos de texto, tal como o PDFBox, � de suma import�ncia para desenvolvedores que precisam manipular arquivos no formato PDF e utilizar o seu conte�do para algum tipo de processamento espec�fico, como indexa��o ou busca por informa��es. O PDFBox possibilita a extra��o de conte�do por p�ginas ou par�grafos, al�m de criar novos documentos, manipular imagens, converter PDF em imagens, adicionar novo conte�do a documentos existentes ou at� mesmo extrair dados por meio de express�es regulares.

Passo 1: Inser��o de conte�do em documentos PDF

O primeiro exemplo que ser� desenvolvido com o PDFBox consiste em inserir alguma informa��o em um PDF j� existente. Na Figura 1 podemos visualizar o documento a ser utilizado. O leitor pode optar por qualquer documento para realizar essa opera��o.