Estrutura de dados: Primeiros passos com m�todos de busca

Por que eu devo ler este artigo:Este artigo � �til para todo desenvolvedor que pretende expandir seus conhecimentos sobre m�todos de pesquisa (ou m�todos de busca).

Para isso, ser�o apresentados os conceitos b�sicos sobre tr�s conhecidos m�todos de pesquisa: pesquisa sequencial, pesquisa bin�ria e pesquisa por tabela Hash. Juntamente com os m�todos de pesquisa, trechos de c�digo ser�o analisados, ilustrando a implementa��o de tais m�todos na linguagem Java.

Al�m disso, coment�rios sobre a efici�ncia de cada m�todo, bem como sobre os cen�rios nos quais eles podem ser aplicados com sucesso s�o discorridos ao longo do texto.

Este artigo trata da recupera��o de dados a partir de um conjunto de informa��es previamente armazenado.

Em geral, no meio computacional, a informa��o � dividida em registros e cada registro possui uma chave para ser usada na pesquisa e uma ou mais informa��es de interesse do usu�rio.

Por exemplo, o registro de um aluno em uma universidade pode conter uma chave que identifica unicamente a matr�cula e um conjunto de informa��es sobre este aluno, como nome, endere�o, telefone, entre outros.

O objetivo da pesquisa � encontrar uma ou mais ocorr�ncias de registros com chaves iguais � chave de pesquisa e para essa finalidade existem v�rios m�todos.

A escolha do mais adequado depende, principalmente: (i) da quantidade de dados envolvidos; e (ii) da possibilidade de o arquivo sofrer inser��es e/ou retiradas.

Por exemplo, � diferente encontrar o registro do nome de um estado brasileiro no conjunto de todos os estados brasileiros e encontrar o registro de um aluno que fez o Exame Nacional do Ensino M�dio (ENEM).

No segundo caso, a massa de dados � muito maior. Tamb�m � diferente procurar um registro em um conjunto de dados que sofre poucas altera��es (inser��es/remo��es) como, por exemplo, o conjunto de estados brasileiros; e procurar por uma venda, a partir do seu c�digo, na base de dados de uma grande empresa de e-commerce, cujos dados mudam constantemente.

No primeiro caso, o importante � minimizar o tempo de pesquisa sem preocupa��o com o tempo necess�rio para realizar inser��es e remo��es no conjunto de dados, uma vez que o mesmo sofre poucas altera��es ao longo do tempo.

A partir disso, neste artigo analisaremos conceitos, na teoria e na pr�tica, da pesquisa interna (ou busca interna), na qual assume-se que o conjunto de dados a ser pesquisado � pequeno o suficiente para ser carregado de uma vez na mem�ria principal (ou mem�ria interna) do computador.

Quando a quantidade de informa��es � grande o suficiente a ponto de n�o ser poss�vel trat�-la de uma vez na mem�ria principal, m�todos de pesquisa externa s�o necess�rios. Esse tipo de m�todo � capaz de lidar com conjuntos de dados que est�o armazenados na mem�ria auxiliar (externa) do computador, como o HD, fitas magn�ticas, entre outros.

A prioridade de cada categoria de algoritmos � diferente. Enquanto em uma pesquisa interna procura-se reduzir a quantidade de compara��es realizadas pelo m�todo escolhido, na pesquisa externa, al�m desse requisito, deve-se levar em considera��o a quantidade de consultas ao disco necess�rias para se encontrar a informa��o pesquisada.

Abordaremos tr�s m�todos de busca interna: sequencial, bin�ria e utilizando a tabela Hash. No t�pico �Conceitos Preliminares� apresentaremos o modelo de estrutura de dados que ser� utilizado para a implementa��o dos m�todos de pesquisa.

Em seguida, nos t�picos �Pesquisa Sequencial�, �Pesquisa Bin�ria� e �Pesquisa por Tabela Hash�, ser�o analisados os tr�s principais m�todos de pesquisa existentes na literatura, destacando suas principais caracter�sticas e estrat�gias de implementa��o e efici�ncia.

Conceitos preliminares

Este t�pico apresenta alguns conceitos que s�o fundamentais para o acompanhamento deste artigo, tal como o conceito de an�lise da complexidade de algoritmos, que ser� amplamente discutido, e o conceito de �Dicion�rio�, como um tipo abstrato de dados para implementa��o de m�todos de pesquisa.

A an�lise da complexidade de algoritmos

Um aspecto predominante na escolha de um m�todo de pesquisa � o tempo gasto para realiz�-las, bem como para manipular o conjunto de dados, inserindo ou removendo elementos.

Para a pesquisa, a medida de complexidade relevante consiste no n�mero de compara��es entre chaves realizadas at� que uma resposta seja dada pelo algoritmo.

Quanto � inser��o/remo��o, leva-se em considera��o tamb�m o n�mero de movimenta��es (ou trocas) necess�rias para acomodar um novo item ou remover um item existente do conjunto de dados.

Assim, as medidas de complexidade analisadas para cada m�todo de pesquisa apresentado neste texto s�o C(n) e M(n), que correspondem, respectivamente, �s fun��es de complexidade que descrevem o n�mero de compara��es e o n�mero de movimenta��es realizadas por cada m�todo, onde n � a quantidade de itens do conjunto de dados a ser pesquisado.

� importante ressaltar ainda que a maioria dos m�todos de pesquisa � sens�vel � ordem inicial dos itens a serem pesquisados, isto �, o n�mero de compara��es e/ou movimenta��es realizadas por um m�todo pode variar caso o conjunto esteja ordenado ou n�o ou se o elemento a ser pesquisado estiver no in�cio ou no final do conjunto, entre outros. Assim, C(n) e M(n) devem ser considerados, sempre quando poss�vel, para tr�s casos:

O melhor caso: corresponde ao menor n�mero de compara��es/movimenta��es sobre todas as poss�veis entradas de tamanho n;
O pior caso: corresponde ao maior n�mero de compara��es/movimenta��es sobre todas as poss�veis entradas de tamanho n;
O caso m�dio (ou caso esperado): corresponde � m�dia do n�mero de compara��es/movimenta��es de todas as poss�veis entradas de tamanho n.

O tipo abstrato de dados Dicion�rio

� muito importante considerar m�todos de pesquisa como um Tipo Abstrato de Dado � TAD, isto �, uma estrutura de dados com um conjunto de opera��es associado a ela.

O motivo � que um TAD promove a independ�ncia dos poss�veis tipos de implementa��o para esses m�todos de pesquisa. Por exemplo, um programador pode implementar o m�todo de pesquisa sequencial com vetores, outro pode utilizar listas encadeadas, mas de qualquer forma, todos os casos tratam do mesmo prop�sito (a pesquisa) e devem oferecer as mesmas fun��es aos seus usu�rios.

Um TAD comumente utilizado para pesquisa � o dicion�rio. Um dicion�rio � um TAD cujas opera��es s�o respons�veis por inicializar a estrutura de dados utilizada no dicion�rio, pesquisar um ou mais registros com determinada chave, inserir um novo registro e remover um registro espec�fico.

A implementa��o dos m�todos de pesquisa apresentados neste texto baseia-se no TAD dicion�rio e na linguagem de programa��o Java. Para simplificar a apresenta��o dos m�todos de pesquisa, apenas as fun��es inserir e pesquisar ser�o discutidas.

A linguagem Java foi escolhida porque tem sido utilizada em diversos livros-textos sobre estruturas de dados, como em Goodrich (2013), Sedgewick (2013), Ziviani (2007), al�m de ser uma linguagem amplamente conhecida, bem documentada e que apresenta caracter�sticas interessantes para o desenvolvimento de estruturas de dados gen�ricas.

K1Para a implementa��o do TAD dicion�rio, as interfaces Item e ...

Quer ler esse conteúdo completo? Tenha acesso completo