Artigo Java Magazine 30 - Mais Performance com Java

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Esse artigo faz parte da revista Java Magazine edi��o 30. Clique aqui para ler todos os artigos desta edi��o

OR: windowtext; FONT-FAMILY: Verdana">m 0cm 12pt">Saiba em detalhes como os compiladores JIT aceleram seu c�digo, e fique por dentro das �ltimas novidades de desempenho nas novas JVMs

Osvaldo Pinali Doederlein

O Java evoluiu muito desde a sua introdu��o, crescendo continuamente tanto em funcionalidades quanto em desempenho. As antigas percep��es sobre mau desempenho do Java j� s�o algo do passado. Hoje, somente desenvolvedores muito desinformados � ou de m�-f� � afirmariam que o Java � �lento por ser interpretado�, ou que compiladores JIT n�o podem competir com compiladores est�ticos (o que se tem visto ultimamente � com freq��ncia o oposto).

Por outro lado, a tecnologia das JVMs n�o est� "completa", no sentido que n�o reste nada a melhorar. Tamb�m n�o faz m�gica � toda plataforma e toda linguagem faz algumas op��es, e certos aspectos do Java ainda dificultam a obten��o de um desempenho m�ximo em casos espec�ficos.

Este artigo possui dois objetivos gerais. O primeiro � discutir, de maneira franca, as quest�es de desempenho do Java, os princ�pios da otimiza��o de c�digo, e as capacidades e limita��es das JVMs atuais. O segundo � atualizar o leitor sobre as �ltimas novidades de desempenho do Java � especificamente as novas otimiza��es que est�o vindo com o Mustang e o IBM JDK 5.0.

Desempenho e a evolu��o das linguagens

No estudo de linguagens de programa��o e compiladores, vemos que o trabalho dos otimizadores vai no sentido contr�rio do realizado pelos projetistas de linguagens. Tudo o que � constru�do por uma linguagem de programa��o tem que ser �desconstru�do� pelos otimizadores.

Linguagens de mais alto n�vel t�m um desempenho intr�nseco pior[1], pois as primitivas de programa��o utilizadas no c�digo-fonte v�o se distanciando cada vez mais das opera��es fundamentais das CPUs. Essa dist�ncia exige um mapeamento a ser feito pelo compilador. Quanto mais complexo o mapeamento, mais intelig�ncia ser� necess�ria para faz�-lo da forma mais eficiente poss�vel.

Por exemplo, para fazer um loop, um programador poderia escrever o seguinte c�digo em Assembly x86:

LOOP:

MOV EDI, 1000 # executar 1000 itera��es

... corpo do loop ...

DEC EDI

JNZ EDI, LOOP # decrementa, e repete at� chegar a 0

Este c�digo � "de baixo n�vel", n�o s� por utilizar as instru��es nativas de uma CPU, mas tamb�m por explorar suas idiossincrasias. Por exemplo, usamos o registrador EDI como vari�vel de controle do loop, porque este registrador � muito �til para indexar arrays de dados. Tamb�m programamos o loop ao contr�rio, contando de 1000 a 0 (ao inv�s de contar de 0 a 1000, como seria mais intuitivo). Isso � feito para explorar o comportamento de instru��es como a DEC, a qual al�m de diminuir um valor em 1, tamb�m compara o resultado com zero � o que economiza uma instru��o extra que ter�amos que usar (a CMP) caso o valor de parada fosse qualquer outro.

Em suma, uma linguagem de baixo n�vel n�o s� aumenta a quantidade de c�digo que tem de ser escrito, mas tamb�m induz o programador a contorcer seus algoritmos para adaptar-se ao comportamento da linguagem[2]. E o Assembly, se por um lado facilita obter o melhor desempenho poss�vel, tem desvantagens s�rias e conhecidas. � extremamente dif�cil, pouco produtivo e perigoso (sendo dif�cil evitar bugs catastr�ficos) � e a portabilidade � zero.

Na medida em que as linguagens sobem de n�vel, resolvem-se essas desvantagens, mas sempre com algum custo em desempenho. Por exemplo, em Java 5.0 podemos escrever um loop assim:

for (Cliente c: clientes)

// utiliza c

As melhorias s�o evidentes. Facilidade de programa��o e manuten��o; portabilidade, inclusive bin�ria; seguran�a � qualquer erro gera no m�ximo uma exce��o, por exemplo se clientes==null teremos uma NullPointerException, mas n�o uma pane ou corrup��o do heap.

Os custos, por outro lado, tamb�m s�o grandes. C�digo nativo deve ser gerado em tempo de execu��o, pois inclui otimiza��es nem sempre triviais � como alocar vari�veis para registradores ou selecionar as instru��es de CPU ideais para cada opera��o. A JVM � obrigada a verificar indexa��es de arrays e usos de refer�ncias nulas. Se clientes for uma cole��o, sua itera��o exigir� objetos Iterator, que exigem aloca��o no heap, invoca��o a m�todos polim�rficos como next(), c�digo adicional para itera��o fail-fast[3], e ao final do loop viram lixo, dando trabalho ao Garbage Collector.

Os problemas trazidos pelas linguagens de alto n�vel criam desafios cada vez maiores para os compiladores. O exemplo anterior em Java nem � a �ltima palavra em �alto n�vel�. Poder�amos complicar ainda mais, mesmo em um caso simples como aquele. Numa linguagem com tipos din�micos (como JavaScript ou Smalltalk), o programador n�o precisa declarar o tipo de cada vari�vel � o que cria muito mais dificuldades para a compila��o eficiente. E o que dizer de linguagens declarativas como SQL, CLIPS ou Prolog, que nem sequer possuem loops expl�citos?

Os programadores t�m sempre a expectativa de utilizar linguagens mais avan�adas, mas sem pagar por isso, considerando que uma nova linguagem s� � perfeita se gerar programas t�o eficientes quanto a anterior. Boa parte da propaganda sobre novas linguagens, veiculada por fornecedores ou aficionados, � centrada em benchmarks de desempenho, que s�o sempre focados na compara��o com linguagens de baixo n�vel como C � ou pelo menos, com suas competidoras no mercado (ex.: C# versus Java).

Essa expectativa de ganhar algo em troca de nada n�o �, claro, realista, pois os compiladores � por mais avan�ados que sejam � n�o t�m intelig�ncia para competir com um bom programador humano trabalhando com uma linguagem de mais baixo n�vel. No entanto, os compiladores t�m uma vantagem: for�a bruta. O Deep Blue, um supercomputador de 256 CPUs, s� derrotou Garry Kasparov por ser capaz de calcular 200 bilh�es de lances de Xadrez em tr�s minutos[4]. Da mesma forma, um compilador Java (e seu otimizador) s� derrota um humano trabalhando com Assembly devido � sua capacidade de executar milh�es de c�lculos e decis�es simples por segundo.

Um compilador Java s� derrota um humano trabalhando com Assembly, devido � sua capacidade de executar milh�es de c�lculos e decis�es simples por segundo

Com um prazo indefinido, um humano programando em Assembly sempre venceria a disputa. Mas com a necessidade de desenvolver aplica��es cada vez mais complexas, em cada vez menos tempo, as t�cnicas de baixo n�vel se inviabilizam para a grande maioria das tarefas. Atualmente, at� mesmo em softwares de desempenho extremamente cr�tico, como sistemas operacionais de tempo real e jogos de a��o, s� uma fra��o min�scula do sistema � os �hot spots� com desempenho mais cr�tico � s�o escritos em Assembly. Mesmo linguagens de n�vel intermedi�rio, como C/C++, t�m dado lugar ao Java e outras op��es de alto n�vel como linguagens din�micas e de scripting.

Hoje at� mesmo softwares de desempenho muito cr�tico como SOs de tempo real e jogos de a��o t�m uma fra��o min�scula escrita em Assembly

Antes de continuar, vale consultar o quadro "Execu��o de C�digo na JVM" para conceitos fundamentais sobre interpreta��o, compila��o e otimiza��o de c�digo nas JVMs. Esses conceitos ser�o usados generosamente nas se��es a seguir.

O desempenho do Java

Qualquer linguagem ou plataforma possui algumas caracter�sticas que �s vezes podem entrar em conflito com o desempenho, mas que s�o "negoci�veis". Por exemplo, sabemos que Java � uma linguagem orientada a objetos e suporta recursos t�picos de OO que dificultam uma implementa��o eficiente, como m�todos polim�rficos. Mas nessa �rea o Java pode fazer alguns sacrif�cios em nome do desempenho � como suportar tipos primitivos (ex. int) ou m�todos n�o-polim�rficos (os private, final e static), sem comprometer muito seu objetivo de ser uma boa linguagem OO de alta produtividade.

Por outro lado, o Java tamb�m possui certos requisitos fundamentais "n�o-negoci�veis", como portabilidade, funcionalidades din�micas (carregamento din�mico de classes e reflection), al�m de robustez e seguran�a. Em qualquer disputa com um destes requisitos, o desempenho ir� perder: n�o h� meio-termo poss�vel. O problema � que esses requisitos t�m pouco valor se n�o forem satisfeitos de forma estrita. Por exemplo, imagine uma linguagem quase totalmente robusta, que ofere�a uma �nica "porta" para corrup��o de mem�ria � por exemplo, uma sintaxe que permita aos programadores desativar a verifica��o de �ndices de arrays em algoritmos cr�ticos. Seria como uma resid�ncia fortificada, com cerca el�trica e vigil�ncia 24h, mas cujo dono deixasse a chave da porta debaixo do capacho.

� comum encontrarmos cr�ticas ao Java por ser uma linguagem que n�o d� ao programador a liberdade de escrever c�digo do jeito mais "certinho" (seguro, port�vel etc.) ou de forma mais eficiente � optando por trabalhar mais e correr mais riscos. Mas essas cr�ticas parecem n�o levar em conta o fator que acabamos de expor: alguns requisitos fundamentais do Java (que s�o raz�es pelas quais Java faz tanto sucesso) s� s�o satisfeitos se implementados de forma radical[5].

Esses requisitos do Java dificultam uma implementa��o eficiente, mas n�o a impossibilitam. Os compiladores podem ser inteligentes o bastante para desfazer o n� de desempenho gerado pelas exig�ncias da linguagem. Continuando nosso exemplo de indexa��o de arrays, veja este c�digo:

for (int i = 0; i < size; ++i)

arr[i] *= k;

Aqui, o problema � que o Java exige que cada indexa��o (arr[i]) seja verificada e que, se estiver fora de faixa, seja lan�ada uma ArrayIndexOutOfBoundsException. Assim, o c�digo nativo gerado pelo compilador ser� algo como:

for (int i = 0; i < size; ++i) {

if (i <= 0 || i > size) throw new IllegalArgumentException(i);

arr[i] *= k;

}

Este c�digo � muito mais lento que o equivalente de uma linguagem que n�o exige a verifica��o de �ndices, como C ou C++. O preju�zo vem n�o somente do if(...), mas tamb�m da elimina��o de oportunidades de otimiza��o (como logo veremos). E todo esse custo existe de fato, em interpretadores ou em compiladores muito primitivos, como os que t�nhamos com o Java 1.1.x. Mas n�o se preocupe. Qualquer compilador decente poderia produzir pelo menos o seguinte c�digo:

if (i > arr.length) throw new IllegalArgumentException(arr.length);

for (int i = 0; i < size; ++i)

arr[i] *= k;

A otimiza��o � simples de entender. Primeiro, eliminamos o teste i <= 0, pois i � inicializado com a constante 0 e s� � incrementado[6]. Mas a principal melhoria consiste em mover para fora do loop, condi��es que sabemos ser invariantes em rela��o ao loop. Se tivermos, por exemplo, size==10 e arr.length==5, isto sempre ir� gerar uma exce��o, pois o loop n�o altera size nem arr.length. Compiladores de outras linguagens que exigem verifica��o de �ndices t�m feito esse tipo de otimiza��o desde tempos imemoriais (bem, pelo menos desde o Fortran nos anos 60).

O problema � que o Java, como de costume, � mais exigente que as outras linguagens. Ele requer que as exce��es de runtime sejam geradas de forma precisa, sem efeitos colaterais sobre o comportamento do programa. Ent�o, se arr tem cinco elementos, mas a vari�vel size manda contar at� 10, o �nico comportamento aceito � executar as cinco primeiras itera��es do loop, que modificam os elementos arr[0]..arr[4], e s� ent�o gerar um ArrayIndexOutOfBoundsException(5).

Isso significa que a otimiza��o acima � ilegal em Java: n�o podemos gerar a exce��o logo no come�o do loop, mesmo tendo certeza que o loop cont�m um erro de �ndice, e at� sabendo o valor de �ndice que causar� o problema. Observe que a altera��o dos elementos v�lidos do loop (antes da exce��o) � um "efeito colateral" irrevers�vel, pois o lan�amento da exce��o n�o desfaz as altera��es no array. Seria tamb�m poss�vel escrever um programa que captura a exce��o e utiliza os resultados parciais (aqueles primeiros cinco elementos modificados de arr).

Pessoas ainda n�o completamente sintonizadas com o esp�rito do Java reclamam destas regras, que parecem floreios com pouco uso pr�tico: de que adianta executar metade de um loop bichado, s� para suportar t�cnicas de programa��o "sujas", como algoritmos que dependem da captura de exce��es em tempo de execu��o? Mas � preciso se ter uma vis�o mais ampla, considerando novamente os princ�pios do Java. Um deles � a portabilidade: n�o adianta termos um bytecode port�vel e bibliotecas port�veis, se nosso c�digo puder exibir varia��es sutis de comportamento (at� na mesma JVM e mesma plataforma!) devido � a��o fortuita e arbitr�ria do compilador.

A solu��o � continuar tentando, trabalhando cada vez mais:

if (size >= arr.length) { // vers�o lenta:

for (int i = 0; i < arr.length; ++i) {

if (i > size) throw new IllegalArgumentException();

arr[i] *= k;

}

else { // vers�o r�pida:

for (int i = 0; i < arr.length; ++i) {

arr[i] *= k;

}

Esta otimiza��o � conhecida como versionamento. O otimizador gera duas c�pias do loop: uma "vers�o r�pida" que n�o faz verifica��o de �ndice, mas que s� pode ser usada quando se tem a certeza que nenhuma exce��o ser� gerada; e uma "vers�o lenta", executada no caso de exce��o. Uma condi��o inserida pelo compilador determina, em tempo de execu��o, qual vers�o ser� usada.

...

Quer ler esse conteúdo completo? Tenha acesso completo