PdfReader: aumentando a sua Performance no iText

O iText � a biblioteca Java mais importante para manipula��o de arquivos no formato PDF, muito utilizada em diversas organiza��es que precisam trabalhar com diferentes tipo e complexidades de relat�rios. O iText � open source e seu primeiro lan�amento ocorreu em 14 de fevereiro de 2000. O projeto se popularizou no ano de 2008 e em 2009 a licen�a original MPL/LGPL foi alterada para AGPL. Dessa forma, devemos comprar uma licen�a comercial em caso de desenvolvermos atividades comerciais envolvendo o iText.

N�o obstante, iText tamb�m foi portado para o framework .NET da Microsoft e ganhou o nome iTextSharp.

Para baixar o iText basta visitar o site oficial.

Veremos como podemos utilizar o objeto PdfReader e como aumentar a sua performance em aplica��es comerciais que muitas vezes j� est�o com a performance quase estagnadas.

Obtendo Arquivos PDF Existentes

Primeiramente vamos verificar como podemos obter informa��es sobre o documento que estamos processando. Perguntas como quantas p�ginas possui o documento? Qual o tamanho da p�gina? Al�m de diversas outras perguntas podem ser respondidas usando o objeto PDFReader. Segue na Listagem 1 um c�digo de exemplo de como podemos utilizar o objeto.

Listagem 1. Exemplo de uso do objeto PDFReader


  import java.io.FileOutputStream;
  import java.io.IOException;
  import java.io.PrintWriter;
   
  import com.itextpdf.text.DocumentException;
  import com.itextpdf.text.Rectangle;
  import com.itextpdf.text.pdf.PdfReader;
   
   
  public class ObjetoPDFReader {
   
         public static final String RESULT = 
          "C:\\Users\\higor\\Desktop\\proj_iText\\arqPDFexemploResult.txt";
         
         public static void main(String[] args) 
          throws DocumentException, IOException {
   
               String filename = 
                "C:\\Users\\higor\\Desktop\\proj_iText\\arqPDFexemplo.pdf";
               
               PrintWriter writer = new PrintWriter(new 
                 FileOutputStream(RESULT));
               PdfReader reader = new PdfReader(filename);
               writer.println(filename);
               writer.print("Numero de paginas: ");
               writer.println(reader.getNumberOfPages());
               Rectangle mediabox = reader.getPageSize(1);
               writer.print("Tamanho da pagina 1: [");
               writer.print(mediabox.getLeft());
               writer.print(',');
               writer.print(mediabox.getBottom());
               writer.print(',');
               writer.print(mediabox.getRight());
               writer.print(',');
               writer.print(mediabox.getTop());
               writer.println("]");
               writer.print("Rotacao da primeira pagina: ");
               writer.println(reader.getPageRotation(1));
               writer.print("Tamanho da rotacao (pagina 1): ");
               writer.println(reader.getPageSizeWithRotation(1));
               writer.print("Tamanho do arquivo: ");
               writer.println(reader.getFileLength());
               writer.print("Esta reprocessado? ");
               writer.println(reader.isRebuilt());
               writer.print("Esta encriptado? ");
               writer.println(reader.isEncrypted());
               writer.println();
               writer.flush();
               writer.close();
               
         }
   }

N�o podemos nos esquecer de alterar os caminhos para as pastas e arquivos. Neste exemplo estamos utilizando pastas e arquivos PDF pessoais.

Segue na Figura 1 o resultado retornado da execu��o do c�digo anterior.

Figura 1. Resultado da execu��o da Listagem 1

Uma ressalva importante a ser feita � que quando tentarmos abrir um arquivo PDF corrompido receberemos uma mensagem "There was an error opening this document. The file is damaged and could not be repaired". Se tentarmos abrir na listagem acima esse mesmo arquivo corrompido, teremos como resultado o lan�amento de uma exce��o InvalidPdfException com a seguinte mensagem: �Rebuild failed: trailer not found; original message: PDF startxref not found.�. O arquivo est� corrompido e nada pode ser feito. Dessa forma, ter�amos que contatar o respons�vel pelo arquivo e solicitar uma vers�o funcional. O m�todo isRebuilt() � utilizado para checar se um PDF precisa de reparos.

Outro problema encontrado � quando tentamos ler arquivos PDF encriptados. Nos casos em que um arquivo PDF estiver protegido por senha devemos fornecer a senha antes de abrir o documento ou receberemos uma exce��o BadPasswordException.

Reduzindo o Uso de Mem�ria com PdfReader

A maioria dos desenvolvedores criam uma inst�ncia do objeto PdfReader usando uma String que representa o caminho de um arquivo PDF existente. Usando o construtor do PdfReader far� com que o PdfReader carregue muita coisa nos objetos Java que estar�o em mem�ria.

Isto pode ser um exagero para arquivos grandes, especialmente quando estamos interessados apenas em partes do documento. Assim, podemos escolher ler um PDF parcialmente. Por exemplo, podemos imaginar que temos um arquivo PDF com 1000 p�ginas, mas estamos interessados apenas na primeira p�gina deste documento. Podemos evitar o uso do construtor. O c�digo da Listagem 2 mostra como poder�amos fazer isso.

Listagem 2. Exemplo utilizando RandomAcessFileOrArray


  import java.io.FileOutputStream;
  import java.io.IOException;
  import java.io.PrintWriter;
   
  import com.itextpdf.text.DocumentException;
  import com.itextpdf.text.io.RandomAccessSource;
  import com.itextpdf.text.io.RandomAccessSourceFactory;
  import com.itextpdf.text.pdf.PdfReader;
  import com.itextpdf.text.pdf.RandomAccessFileOrArray;
   
   
  public class ObjetoPDFReaderComLeituraParcial {
         
         public static void main(String[] args) throws DocumentException, IOException {
   
               String filename = 
               "C:\\Users\\higor\\Desktop\\proj_iText\\android.pdf";
               
               RandomAccessSourceFactory f = new RandomAccessSourceFactory();
               RandomAccessSource randomAccessSource = 
                f.createBestSource(filename);
               
               PdfReader reader = new PdfReader(
                  new RandomAccessFileOrArray(randomAccessSource), null);
               
               System.out.println(reader.getNumberOfPages());
               
         }
         
  }

Se quisermos fazer uma an�lise mais profunda, podemos analisar a mem�ria utilizada neste exemplo e num exemplo utilizando apenas PdfReader. Utilizando o construtor do PdfReader temos um aumento em mais de oite vezes no total de mem�ria utilizada para guardar o pdf.

Dessa forma estamos usando muito menos mem�ria do que se estiv�ssemos utilizando toda a mem�ria como � feito com PdfReader. Portanto se estivermos utilizando um documento muito grande devemos considerar o uso de PdfReader com um RandomAccessFileOrArray.

Por�m, tamb�m existe outra forma de reduzir a quantidade de mem�ria usada que � simplesmente reduzindo o n�mero de p�gina que gostar�amos de trabalhar. Para isso podemos dizer explicitamente ao objeto PdfReader que gostar�amos de trabalhar com as p�ginas 4 at� 8. O c�digo da Listagem 3 demonstra este exemplo.

Listagem 3. Exemplo utilizando n�mero reduzido de p�ginas


  import java.io.IOException;
  import com.itextpdf.text.DocumentException;
  import com.itextpdf.text.pdf.PdfReader;
   
  public class ObjetoPDFReaderUtilizandoLeituraPaginas {
         
    public static void main(String[] args) throws DocumentException, 
      IOException {
               
         String filename = 
          "C:\\Users\\higor\\Desktop\\proj_iText\\android.pdf";
               
         PdfReader reader = new PdfReader(filename);
         reader.selectPages("4-8");
         System.out.println(reader.getNumberOfPages());
       }
  }

Tamb�m podemos ter m�ltiplos intervalos de p�ginas separadas por v�rgulas. Outro modificador que pode ser utilizado � o "!" que remove p�ginas que j� foram selecionadas. Ainda podemos utilizar "o" (odd) para p�ginas �mpares ou �e� (even) para p�ginas pares. Segue na Listagem 4 um exemplo de alguns dos par�metros discutidos.

Listagem 4. Exemplo utilizando par�metros do m�todo selectPages()


  import java.io.IOException;
   
  import com.itextpdf.text.DocumentException;
  import com.itextpdf.text.pdf.PdfReader;
   
   
  public class ObjetoPDFReaderUtilizandoRangesParesImpares {
         public static void main(String[] args) throws DocumentException, IOException {
               
               String filename = "C:\\Users\\higor\\Desktop\\proj_iText\\android.pdf";
               
               PdfReader reader = new PdfReader(filename);
               reader.selectPages("o");
               System.out.println(reader.getNumberOfPages());
               reader.selectPages("e");
               System.out.println(reader.getNumberOfPages());
               reader.selectPages("4-8,8-10");
               System.out.println(reader.getNumberOfPages()); 
         }
  }

Se tentarmos passar algumas p�ginas fora do range de p�ginas teremos um NullPointerException. Uma dica � sempre tratar os valores de entrada quando estamos lidando com informa��es providas pelos usu�rios, isso ajuda a evitar um crash da aplica��o em tempo de execu��o.

Concluindo, vimos como utilizar o PdfReader e como podemos aumentar a sua performance, tornando as nossas aplica��es mais competitivas no mercado e utilizando com efici�ncia os recursos dos servidores que muitas vezes j� est�o bastante sobrecarregados com diversas outras ferramentas concorrentes.

Bibliografia

[1] Eclipse Foundation Tutorial, dispon�vel em http://www.eclipse.org/tutorial

[2] LOWAGIE, B. iText in Action, Second Edition. Manning, 2011.

[3] iText PDF Library. Dispon�vel em http://sourceforge.net/projects/itext/

Confira outros conte�dos:

Por Higor Em 2014

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Ezequiel Barbosa

Boa tarde.
Tenho um arquivo byte[] (blob), salvo no banco. Depois que carrego o byte[], como passar para o PdfReader?

há +1 ano

Ver coment�rios anteriores (3)

Marcio Souza

Legal Ezequiel, isso mesmo.

há +1 ano

Bruno Maria

Boa tarde,
Gostaria de saber qual o tamanho m�ximo para agera��o do PDF gerado pelo PdfReader ?
Atenciosamente.

há +1 ano

Ver coment�rio anterior

Marcio Souza

Ol� Bruno,
ao que parece vers�es anteriores a 5.3 do iText geram PDFs de at� 2GB. E vers�es posteriores a 5.3 geram arquivos at� 1TB.

The maximum size of a PDF created with iText versions before 5.3 is 2 gigabytes. The maximum size of a PDF created with iText versions 5.3 and higher is 1 terabyte.

https://developers.itextpdf.com/question/what-size-limit-pdf-file

há +1 ano

PdfReader: aumentando a sua Performance no iText

Veja neste artigo como podemos utilizar PdfReader para manipular documentos PDF no iText e como aumentar a performance das aplica��es que utilizam o objeto PdfReader.

Obtendo Arquivos PDF Existentes

Reduzindo o Uso de Mem�ria com PdfReader

Confira outros conte�dos: