ArrayLists: o que acontece por tr�s da interface

Neste artigo veremos como funciona a classe que modela a principal estrutura de dados da computa��o: o array. Com uma abordagem voltada para Java, veremos o que acontece por tr�s do que a classe ArrayList nos fornece.

Frequentemente utilizamos listas em nossos programas, por�m talvez n�o saibamos a facilidade que o computador tem pra armazenar esses dados na mem�ria. Estamos, �s vezes, pouco preocupados com o funcionamento interno das classes que utilizamos, e geralmente usamos o import na que oferece uma interface mais simples, ou importamos as que j� usamos h� mais tempo.

No caso das classes ArrayList e LinkedList, apesar de oferecerem praticamente a mesma interface ao programador, uma vez que ambas implementam a interface List, e terem quase os mesmos m�todos, elas t�m comportamentos absolutamente diferentes.

Ent�o, quando usar cada uma? A diferen�a de desempenho � grande? Para quais opera��es? E o gasto de mem�ria? Como os dados ficar�o armazenados? Tendo respondido todas essas perguntas, poderemos analisar quando � melhor utilizar arrays, e quando � preferencial usar listas encadeadas. Neste artigo teremos foco no funcionamento da classe ArrayList.

Array (ou arranjo; ou ainda vetor) � uma estrutura de dados que armazena elementos geralmente de mesmo tamanho e mesmo tipo. Nos arranjos, os elementos ficam agrupados em grandes blocos na mem�ria de forma sequencial, ou seja, o N-�simo elemento ficar� salvo na mem�ria logo ap�s o (N-1)-�simo. Ent�o, para acharmos qualquer item de um array, basta que saibamos onde est� o primeiro.

Por exemplo, se quisermos o terceiro item, a posi��o da mem�ria dele � igual � posi��o do primeiro elemento somado com duas posi��es. Ent�o, dizemos que a opera��o de acesso em um array tem complexidade constante, isto �, demoramos sempre (ou quase sempre, mas isso � assunto pra outro artigo) o mesmo tempo para acessar tanto o primeiro quanto o �ltimo elemento ou qualquer outro elemento, independente do tamanho do vetor.

Veja na figura 1 a organiza��o dos dados em um vetor.

Figura 1: Organiza��o dos dados de um array na mem�ria.

O n�mero de somas necess�rias para acharmos um elemento � denominado �ndice.

Talvez voc� j� tenha se perguntado por que os �ndices das listas come�am em zero, e n�o em um. Isso acontece porque os �ndices representam as somas necess�rias para se acessar o elemento desejado. No caso do primeiro elemento, n�o � necess�rio somar, ent�o, utiliza-se array[0] - ou array.get(0), em ArrayLists de Java.

Agora vamos supor que nosso vetor de 9 posi��es esteja cheio. Se utilizarmos o m�todo add para inserirmos um novo elemento, o que acontece? � prov�vel que o elemento seja inserido �normalmente�, pelo menos para os olhos do programador. Entretanto, talvez a posi��o de mem�ria logo adiante n�o esteja reservada para nosso programa. O que a classe ArrayList faz? Primeiro realoca mem�ria em outro lugar; com mais espa�o, obviamente - geralmente o dobro. Depois copia todos os elementos para esse novo local (o que gera um grande overhead pra vetores c) e ent�o adiciona o novo elemento. Esta t�cnica � conhecida como doubleVector.

No nosso exemplo, ter�amos um novo vetor em outro lugar da mem�ria com 18 posi��es livres para mais inser��es. Quando a capacidade fosse esgotada, o vetor dobraria e copiaria os dados mais uma vez.

Ent�o, a fim de evitar esse overhead com o m�todo add da classe ArrayList, fica aqui a minha primeira dica:

Se voc� j� sabe quantos elementos vai adicionar no seu array, use o construtor em que voc� passa a capacidade inicial por par�metro. Com isso, ainda acabamos com o desperd�cio de mem�ria gerado em cada doubleVector. Veja na listagem 1 a utiliza��o desse construtor.

Listagem 1: utiliza��o do construtor ArrayList(int initialCapacity)


            public class main {
                public static void main(String[] args) {
                    ArrayList meuVetor = new ArrayList(35);
                    ArrayList meuVetor2 = new ArrayList(); 
                }
            }

Neste caso, o meuVetor � criado com capacidade 35 (trinta e cinco), e o meuVetor2 � criado com capacidade 10 (dez) , padr�o da classe.

No caso da inser��o de elementos no meio do vetor, contando que ainda h� capacidade para armazenamento, h� um grande overhead tamb�m para copiarmos cada elemento posterior para a direita.

Seja myVector um vetor de capacidade 1.000 que contenha 800 elementos ocupados. O que acontece se quisermos adicionar um elemento no in�cio de myVector, utilizando o m�todo add(int index,E element) ? Este � tamb�m um caso cr�tico dos arrays. O primeiro passo para executar tal opera��o � arrastar cada elemento uma posi��o para a direita, liberando o �ndice desejado para inser��o, e s� ent�o inserir o elemento.

Com isso, podemos ver que a inser��o em posi��es aleat�rias de um vetor n�o � bom neg�cio.

E quanto � remo��o? � eficiente? Que algoritmo utiliza?

N�o, a remo��o tamb�m n�o � uma beleza de efici�ncia, pois sofre do mesmo problema citado um pouco acima na inser��o em uma posi��o arbitr�ria: o shift de elementos. Contando que tenhamos o mesmo myVector com 800 elementos, uma remo��o de um elemento do in�cio do vetor seria algo catastr�fico, pois ter�amos que deslizar todos os elementos seguintes, dessa vez para a esquerda, para que o array mantenha a consist�ncia. Para a exclus�o dos elementos no final do arranjo, o shift de elementos seria um pouco menor. Entretanto, na an�lise de complexidade de algoritmos, dizemos que a remo��o em um array tem complexidade linear, pois a quantidade de opera��es necess�rias � diretamente proporcional ao tamanho da lista, no pior caso (remo��o do primeiro elemento).

Para diminuir a complexidade da remo��o, podemos propor uma solu��o diferente, mas esta s� funcionar� em vetores que a ordem dos elementos n�o � importante.

Listagem 2: Reimplementa��o do m�todo remove(int index)


            public class noOrderList<E> extends ArrayList<E> {
                public noOrderList() {
                    super();
                }
                public noOrderList(int initialCapacity) {
                    super(initialCapacity);
                }
                public E remove(int index) {
                    E item_para_remover = super.get(index);
                    super.set(index, super.get(super.size()-1));
                    super.remove(super.size()-1);
                    return item_para_remover;
                }
            }

O que o m�todo remove mostrado na listagem 2 faz � o seguinte:

Cria uma c�pia do item que vamos remover, e salva em item_para_remover.
Em seguida, copia o �ltimo elemento para a posi��o que quer�amos remover.
Remove o �ltimo elemento.
Retorna o elemento removido.

Resumindo: removemos um elemento na posi��o N, e colocamos o �ltimo elemento da lista em seu lugar. Ent�o, fica claro que esta solu��o s� funciona para vetores em que a ordem dos elementos pode ser levemente alterada. Nesse caso temos que a complexidade dessa remo��o � constante, uma vez que temos um n�mero fixo de opera��es, independente do tamanho do vetor.

Ent�o, conclu�mos aqui nosso artigo sobre o que acontece por dentro de arraylists, nas opera��es de inser��o e remo��o. Ap�s toda essa an�lise, espero que esteja claro para voc�s que arrayslists n�o foram pensados para inser��o e remo��o de elementos em posi��es aleat�rias, mas sim para o acesso imediato a qualquer posi��o dele, al�m do r�pido acesso sequencial do vetor inteiro, facilitado pelas estrat�gias de utiliza��o eficiente da mem�ria cache dos processadores, das quais pretendo falar em outro artigo.

Bem, galera, espero que tenham entendido a mensagem, e at� o pr�ximo!

Confira outros conte�dos:

Por Hudson Em 2012

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Antonia Silva

Mesmo com esses pontos negativos, o ArrayList � o mais utilizado atualmente? Ou ainda h� usos de Array em sua estrutura mais b�sica?

há +1 ano

Marcio Souza

Oi Antonia.

N�o tem como avaliar quem � o mais utilizado nos dias atuais porque n�o existe uma estatistica sobre isso, mas acredito que o ArrayList seja sim mais usado que o array na forma b�sica. Isso depende muito de quem est� programando, n�o tem como dizer que voc� est� errada ou certa em usar a forma b�sica, ao inv�s de, usar o ArrayList ou vice-versa.

há +1 ano