Otimiza��o de consultas no MySQL

O mundo da teoria de banco de dados relacionais � dominado por tabelas e conjuntos, e operaç�es em tabelas e conjuntos. Um banco de dados � um conjunto de tabelas, e uma tabela � um conjunto de linhas e colunas. Quando emitimos uma declaraç�o SELECT para recuperar linhas de uma tabela, recebemos outro conjunto de linhas e colunas � isto �, outra tabela. Estas s�o noç�es abstratas que n�o fazem nenhuma refer�ncia quanto � representaç�o subjacente que um de sistema de banco de dados usa para operar nos dados e nas tabelas. Outra abstraç�o consiste em que operaç�es em tabelas acontecem todas de uma vez. As consultas s�o conceituadas como operaç�es de conjuntos e n�o existe nenhum conceito de tempo na teoria de conjuntos.

O mundo real, � claro, � bastante diferente. Sistemas de gerenciamento de banco de dados implementam conceitos abstratos, mas o fazem em sistemas de hardware reais limitados por restriç�es f�sicas reais. Como resultado, as consultas tomam tempo - �s vezes um longo e irritante per�odo de tempo. Como somos criaturas impacientes, n�o gostamos de esperar, deixamos o mundo abstrato de operaç�es matem�ticas instant�neas em conjuntos e procuramos por modos de acelerar nossas consultas. Felizmente, existem v�rias t�cnicas para atingir este objetivo:

indexar tabelas para permitir que o servidor de banco de dados pesquise as linhas mais rapidamente;
considerar como escrever consultas para tirar proveito desses �ndices extensivamente, e usar a declaraç�o EXPLAIN para conferir se o servidor MySQL realmente o est� fazendo;
escrever consultas para influir no mecanismo de escalonamento do servidor (server's scheduling mechanism) de forma que consultas efetuadas por m�ltiplos clientes cooperem melhor entre si;
modificar os par�metros de operaç�o do servidor para atingir um desempenho mais eficiente. Pensar no que acontece com o hardware subjacente e como contornar suas restriç�es f�sicas para obter melhor desempenho.

Estes s�o os tipos de assuntos que iremos focalizar neste artigo. O objetivo � auxili�-lo no aperfeiçoamento do desempenho do sistema de banco de dados, de forma que venha a processar as consultas o mais r�pido poss�vel.O SGBD que utilizaremos ser� o MySQL.

Indexaç�o

Indexaç�o � a ferramenta mais importante que temos para acelerar consultas. Temos outras t�cnicas a nossa disposiç�o, mas geralmente o que faz realmente a diferença � o uso de �ndices. Na lista de e-mail do MySQL, as pessoas pedem freq�entemente ajuda para fazer com que uma consulta rode mais rapidamente. Em um n�mero surpreendentemente de casos, n�o existe nenhum �ndice para as tabelas em consulta, e geralmente, a adiç�o de �ndices resolve o problema imediatamente. N�o � sempre que trabalho assim, porque nem sempre a otimizaç�o � t�o simples de se obter. Entretanto, se n�o usarmos �ndices, em muitos casos estaremos desperdiçando nosso tempo na tentativa de melhorar o desempenho atrav�s de outros meios. Usamos a indexaç�o para melhorar o desempenho e ent�o vemos que outras t�cnicas poder�o ser �teis neste sentido.

Este artigo descreve o que � um �ndice e como a indexaç�o melhora o desempenho das consultas. Tamb�m discutiremos as circunst�ncias sob as quais os �ndices poderiam degradar o desempenho e como fornecer diretrizes para a mais sabia escolha de �ndices para a tabela em consulta.

Benef�cios da indexaç�o

Veremos como os �ndices trabalham começando com uma tabela que n�o tem nenhum �ndice. Uma tabela n�o indexada � simplesmente uma coleç�o desordenada de linhas. Por exemplo, a Figura 1 mostra a tabela �ad�. N�o h� nenhum �ndice nesta tabela, portanto, para pesquisar as linhas para uma companhia em particular, � necess�rio examinar cada linha da tabela e ver se casa com o valor desejado. Isto envolve a varredura completa de uma tabela, o que � bem lento al�m de tremendamente ineficiente, caso a tabela for grande e contiver apenas alguns registros que casam com os crit�rios de pesquisa.

A Figura 2 mostra a mesma tabela acrescida de um �ndice na coluna company_num. O �ndice cont�m uma entrada para cada linha da tabela, mas as entradas de �ndice s�o ordenadas pelo valor de company_num. Agora, em vez de procurar linha a linha por itens casados, podemos usar o �ndice. Vamos supor que estamos procurando todas as linhas para a companhia 13. Começamos a varrer o �ndice e achamos tr�s valores para esta companhia. Ent�o atingimos o valor de �ndice para a companhia 14, que � maior do que estamos procurando. Os valores de �ndice est�o ordenados, assim, quando lemos o registro de �ndice que cont�m 14, sabemos que n�o acharemos nenhum outro casamento e podemos deixar de procurar. Assim, o ganho de efici�ncia obtido com o uso do �ndice consiste em poder determinar precisamente onde as linhas casadas acabam e ignorarmos o resto das linhas. Outro ganho de efici�ncia � obtido pelo uso de algoritmos de posicionamento para achar a primeira entrada casada, sem ter que fazer uma varredura linear desde o in�cio do �ndice (por exemplo, uma procura bin�ria � muito mais r�pido que uma varredura). Deste modo, podemos posicionar rapidamente no primeiro valor casado e eliminar muito tempo de procura. Bancos de dados usam v�rias t�cnicas para o posicionamento r�pido por valores de �ndices, mas neste artigo n�o nos aprofundaremos nessas t�cnicas. O importante � que elas funcionam e que a indexaç�o � uma coisa boa.

Figura 1. Tabela ad n�o indexada.

Figura 2. Tabela ad indexada.

Poder�amos querer saber por que n�o ordenamos as linhas de dados e dispensamos o �ndice. N�o iremos produzir o mesmo tipo de melhoria em velocidade de pesquisa? Sim, isto seria verdade caso a tabela tivesse um �nico �ndice. Mas poder�amos querer acrescentar um segundo �ndice e, neste caso, n�o conseguir�amos ordenar os dados das linhas de dois modos diferentes ao mesmo tempo (por exemplo, poder�amos querer um �ndice por nome do cliente e outro por numero de ID do cliente ou pelo n�mero de telefone). Usar �ndices como entidades separadas das linhas de dados resolve o problema e permite criar �ndices m�ltiplos. Al�m disso, as linhas de �ndice s�o geralmente mais curtas do que as linhas de dados. Quando inserimos ou apagamos novos valores, � mais f�cil movermos valores mais curtos de �ndice para manter a ordenaç�o do que mudar as linhas de dados, que s�o mais longas.

Os detalhes particulares de implementaç�es de �ndice variam no MySQL para diferentes storage engines. Por exemplo, para uma tabela MyISAM, as linhas de dados da tabela s�o mantidas em um �nico arquivo de dados, e valores de �ndice s�o mantidos em um �nico arquivo de �ndice. Podemos ter mais de um �ndice em uma tabela, mas ser�o todos armazenados no mesmo arquivo de �ndices. Cada �ndice no arquivo de �ndices consiste em um arranjo ordenado de chaves de registro que s�o usados para acesso r�pido ao arquivo de dados.

Por outro lado, os storage engines do BDB e do InnoDB n�o separam linhas de dados e valores de �ndice da mesma maneira, embora ambos mantenham �ndices como conjuntos de valores ordenados. Por padr�o, o motor de armazenamento do BDB usa um �nico arquivo por tabela para armazenar dados e valores de �ndice. O motor do InnoDB usa um �nico tablespace dentro do qual gerencia o armazenamento de dados e �ndices para todas as tabelas. O InnoDB pode ser configurado para criar cada tabela com seu pr�prio tablespace, mas mesmo assim, os dados e �ndices s�o armazenados em uma tabela no mesmo arquivo tablespace.

Esta an�lise descreve os benef�cios conseguidos com um �ndice no contexto de consultas a tabela �nica, onde o uso de um �ndice acelera significativamente as procuras eliminando a necessidade de varredura completa da tabela. �ndices s�o realmente mais valiosos quando h� consultas envolvendo junç�es com m�ltiplas tabelas. Em uma consulta a uma tabela �nica, o n�mero de valores que precisamos examinar por coluna corresponde ao n�mero de linhas na tabela. Em uma consulta de m�ltiplas tabelas, o n�mero de poss�veis combinaç�es cresce em grandes proporç�es (representado pelo produto do n�mero de linhas de cada tabela).

Supondo que temos tr�s tabelas n�o indexadas, t1, t2, e t3, cada uma contendo uma coluna, i1, i2 e i3 respectivamente, e cada uma contendo 1.000 linhas com os n�meros 1 at� 1000. Uma consulta para achar todas as combinaç�es de linhas de tabela nas quais os valores sejam iguais, ter� a seguinte forma:

SELECT t1.i1, t2.i2, t3.i3
 FROM t1, t2, t3
 WHERE t1.i1 = t2.i2 AND t2.i1 = t3.i3;

O resultado desta consulta deveria ser 1.000 linhas, cada uma contendo tr�s valores iguais. Se processarmos a consulta na aus�ncia de �ndices, n�o teremos nenhuma id�ia sobre quais linhas cont�m quais valores sem fazer uma varredura total. Como conseq��ncia, temos que tentar todas as combinaç�es para achar aquelas que casam com a cl�usula WHERE. O n�mero de poss�veis combinaç�es � 1.000 x 1.000 x 1.000 (um bilh�o!) que equivale a um milh�o de vezes mais do que o n�mero de casamentos retornados. Isto representa muito esforço perdido. O exemplo ilustra como � medida que as tabelas crescem, o tempo para processar junç�es com essas tabelas cresce ainda mais se nenhum �ndice for usado, conduzindo a um desempenho muito fraco. Podemos acelerar as coisas consideravelmente indexando as tabelas porque os �ndices nos permitem processar a consulta deste modo:

selecionar a primeira linha da tabela t1 e ver o valor contido na linha.
usar o �ndice da tabela t2 e ir diretamente para a linha que casa com valor da tabela t1. Da mesma forma, usar o �ndice da tabela t3 e ir diretamente para a linha que casa com o valor da tabela t2.
continuar com a pr�xima linha da tabela t1 e repetir o procedimento anterior. Repetir estes procedimentos at� que todas as linhas da tabela t1 sejam examinadas.

Neste caso, ainda executamos uma varredura completa na tabela t1, mas podemos fazer procuras indexadas nas tabelas t2 e t3 para extrair diretamente as linhas dessas tabelas. A consulta roda aproximadamente um milh�o de vezes mais r�pido deste modo, literalmente. Este exemplo foi constru�do com a finalidade de fazer uma observaç�o, � claro. Entretanto, os problemas que o mesmo ilustra s�o reais, e acrescentar �ndices a tabelas que n�o t�m nenhum, freq�entemente resulta em consider�veis ganhos de desempenho.

O MySQL usa �ndices de v�rios modos:

como foi descrito h� pouco, �ndices s�o usados para acelerar procuras por linhas que casam com condiç�es de uma cl�usula WHERE ou por linhas que casam com linhas de outras tabelas, quando uma junç�o � executada;
para consultas que usam as funç�es MIN () ou MAX (), o valor menor ou maior em uma coluna pode ser achado rapidamente sem necessidade de examinar todas as linhas;
MySQL pode usar freq�entemente �ndices para executar rapidamente operaç�es de ordenaç�o e de agrupamento para cl�usulas ORDER By e GROUP BY;
�s vezes, o MySQL pode usar um �ndice para ler toda a informaç�o necess�ria para uma consulta. Suponha que estamos selecionando valores de uma coluna num�rica indexada em uma tabela MyISAM, e n�o estamos selecionando outras colunas da tabela. Neste caso, quando o MySQL for ler um valor de �ndice do arquivo de �ndices, obter� o mesmo valor que seria obtido ao ler o arquivo de dados. N�o h� nenhuma raz�o para ler os valores duas vezes, assim o arquivo de dados n�o precisa ser consultado.

Custos da indexaç�o

Podemos ver que estamos pintando um quadro �cor de rosa" quanto aos benef�cios da indexaç�o. H� desvantagens? Sim, h�. H� custos envolvidos de tempo e de espaço. Na pr�tica, estas desvantagens tendem a ser superadas pelas vantagens, mas devemos saber de que custos estamos falando.

Em primeiro lugar, �ndices aumentam a velocidade de recuperaç�o, por�m reduzem a velocidade de inserç�es e exclus�es, assim como atualizaç�es de valores em colunas indexadas. Isto quer dizer que �ndices tornam mais lentas a maioria das operaç�es que envolvem escrita. Isto acontece porque a gravaç�o de um registro n�o s� requer escrita das linhas de dados, mas tamb�m implica em mudanças nos �ndices. Quanto mais �ndices uma tabela tem, mais alteraç�es ser�o realizadas e maior ser� a degradaç�o m�dia de desempenho.

Em segundo lugar, um �ndice ocupa espaço em disco. Isto poderia fazer com que o limite de tamanho de tabela seja alcançado mais rapidamente do que se n�o houver nenhum �ndice:

indexar pesadamente uma tabela MyISAM pode fazer com que o arquivo de �ndices alcance o tamanho m�ximo mais rapidamente que o arquivo de dados;
para tabelas BDB que armazenam dados e valores de �ndice no mesmo arquivo, o acr�scimo de �ndices tamb�m pode fazer com que o arquivo de �ndice alcance o tamanho m�ximo mais rapidamente;" [...] continue lendo...

Otimiza��o de consultas no MySQL

Artigo da Revista SQL Magazine - Edição 25.

Indexaç�o

Benef�cios da indexaç�o

Custos da indexaç�o

Artigos relacionados