Otimiza��o de consultas no MySQL

O mundo da teoria de banco de dados relacionais � dominado por tabelas e conjuntos, e opera��es em tabelas e conjuntos. Um banco de dados � um conjunto de tabelas, e uma tabela � um conjunto de linhas e colunas. Quando emitimos uma declara��o SELECT para recuperar linhas de uma tabela, recebemos outro conjunto de linhas e colunas � isto �, outra tabela. Estas s�o no��es abstratas que n�o fazem nenhuma refer�ncia quanto � representa��o subjacente que um de sistema de banco de dados usa para operar nos dados e nas tabelas. Outra abstra��o consiste em que opera��es em tabelas acontecem todas de uma vez. As consultas s�o conceituadas como opera��es de conjuntos e n�o existe nenhum conceito de tempo na teoria de conjuntos.

O mundo real, � claro, � bastante diferente. Sistemas de gerenciamento de banco de dados implementam conceitos abstratos, mas o fazem em sistemas de hardware reais limitados por restri��es f�sicas reais. Como resultado, as consultas tomam tempo - �s vezes um longo e irritante per�odo de tempo. Como somos criaturas impacientes, n�o gostamos de esperar, deixamos o mundo abstrato de opera��es matem�ticas instant�neas em conjuntos e procuramos por modos de acelerar nossas consultas. Felizmente, existem v�rias t�cnicas para atingir este objetivo:

indexar tabelas para permitir que o servidor de banco de dados pesquise as linhas mais rapidamente;
considerar como escrever consultas para tirar proveito desses �ndices extensivamente, e usar a declara��o EXPLAIN para conferir se o servidor MySQL realmente o est� fazendo;
escrever consultas para influir no mecanismo de escalonamento do servidor (server's scheduling mechanism) de forma que consultas efetuadas por m�ltiplos clientes cooperem melhor entre si;
modificar os par�metros de opera��o do servidor para atingir um desempenho mais eficiente. Pensar no que acontece com o hardware subjacente e como contornar suas restri��es f�sicas para obter melhor desempenho.

Estes s�o os tipos de assuntos que iremos focalizar neste artigo. O objetivo � auxili�-lo no aperfei�oamento do desempenho do sistema de banco de dados, de forma que venha a processar as consultas o mais r�pido poss�vel.O SGBD que utilizaremos ser� o MySQL.

Indexa��o

Indexa��o � a ferramenta mais importante que temos para acelerar consultas. Temos outras t�cnicas a nossa disposi��o, mas geralmente o que faz realmente a diferen�a � o uso de �ndices. Na lista de e-mail do MySQL, as pessoas pedem freq�entemente ajuda para fazer com que uma consulta rode mais rapidamente. Em um n�mero surpreendentemente de casos, n�o existe nenhum �ndice para as tabelas em consulta, e geralmente, a adi��o de �ndices resolve o problema imediatamente. N�o � sempre que trabalho assim, porque nem sempre a otimiza��o � t�o simples de se obter. Entretanto, se n�o usarmos �ndices, em muitos casos estaremos desperdi�ando nosso tempo na tentativa de melhorar o desempenho atrav�s de outros meios. Usamos a indexa��o para melhorar o desempenho e ent�o vemos que outras t�cnicas poder�o ser �teis neste sentido.

Este artigo descreve o que � um �ndice e como a indexa��o melhora o desempenho das consultas. Tamb�m discutiremos as circunst�ncias sob as quais os �ndices poderiam degradar o desempenho e como fornecer diretrizes para a mais sabia escolha de �ndices para a tabela em consulta.

Benef�cios da indexa��o

Veremos como os �ndices trabalham come�ando com uma tabela que n�o tem nenhum �ndice. Uma tabela n�o indexada � simplesmente uma cole��o desordenada de linhas. Por exemplo, a Figura 1 mostra a tabela �ad�. N�o h� nenhum �ndice nesta tabela, portanto, para pesquisar as linhas para uma companhia em particular, � necess�rio examinar cada linha da tabela e ver se casa com o valor desejado. Isto envolve a varredura completa de uma tabela, o que � bem lento al�m de tremendamente ineficiente, caso a tabela for grande e contiver apenas alguns registros que casam com os crit�rios de pesquisa.

A Figura 2 mostra a mesma tabela acrescida de um �ndice na coluna company_num. O �ndice cont�m uma entrada para cada linha da tabela, mas as entradas de �ndice s�o ordenadas pelo valor de company_num. Agora, em vez de procurar linha a linha por itens casados, podemos usar o �ndice. Vamos supor que estamos procurando todas as linhas para a companhia 13. Come�amos a varrer o �ndice e achamos tr�s valores para esta companhia. Ent�o atingimos o valor de �ndice para a companhia 14, que � maior do que estamos procurando. Os valores de �ndice est�o ordenados, assim, quando lemos o registro de �ndice que cont�m 14, sabemos que n�o acharemos nenhum outro casamento e podemos deixar de procurar. Assim, o ganho de efici�ncia obtido com o uso do �ndice consiste em poder determinar precisamente onde as linhas casadas acabam e ignorarmos o resto das linhas. Outro ganho de efici�ncia � obtido pelo uso de algoritmos de posicionamento para achar a primeira entrada casada, sem ter que fazer uma varredura linear desde o in�cio do �ndice (por exemplo, uma procura bin�ria � muito mais r�pido que uma varredura). Deste modo, podemos posicionar rapidamente no primeiro valor casado e eliminar muito tempo de procura. Bancos de dados usam v�rias t�cnicas para o posicionamento r�pido por valores de �ndices, mas neste artigo n�o nos aprofundaremos nessas t�cnicas. O importante � que elas funcionam e que a indexa��o � uma coisa boa.

Figura 1. Tabela ad n�o indexada.

Figura 2. Tabela ad indexada.

Poder�amos querer saber por que n�o ordenamos as linhas de dados e dispensamos o �ndice. N�o iremos produzir o mesmo tipo de melhoria em velocidade de pesquisa? Sim, isto seria verdade caso a tabela tivesse um �nico �ndice. Mas poder�amos querer acrescentar um segundo �ndice e, neste caso, n�o conseguir�amos ordenar os dados das linhas de dois modos diferentes ao mesmo tempo (por exemplo, poder�amos querer um �ndice por nome do cliente e outro por numero de ID do cliente ou pelo n�mero de telefone). Usar �ndices como entidades separadas das linhas de dados resolve o problema e permite criar �ndices m�ltiplos. Al�m disso, as linhas de �ndice s�o geralmente mais curtas do que as linhas de dados. Quando inserimos ou apagamos novos valores, � mais f�cil movermos valores mais curtos de �ndice para manter a ordena��o do que mudar as linhas de dados, que s�o mais longas.

Os detalhes particulares de implementa��es de �ndice variam no MySQL para diferentes storage engines. Por exemplo, para uma tabela MyISAM, as linhas de dados da tabela s�o mantidas em um �nico arquivo de dados, e valores de �ndice s�o mantidos em um �nico arquivo de �ndice. Podemos ter mais de um �ndice em uma tabela, mas ser�o todos armazenados no mesmo arquivo de �ndices. Cada �ndice no arquivo de �ndices consiste em um arranjo ordenado de chaves de registro que s�o usados para acesso r�pido ao arquivo de dados.

Por outro lado, os storage engines do BDB e do InnoDB n�o separam linhas de dados e valores de �ndice da mesma maneira, embora ambos mantenham �ndices como conjuntos de valores ordenados. Por padr�o, o motor de armazenamento do BDB usa um �nico arquivo por tabela para armazenar dados e valores de �ndice. O motor do InnoDB usa um �nico tablespace dentro do qual gerencia o armazenamento de dados e �ndices para todas as tabelas. O InnoDB pode ser configurado para criar cada tabela com seu pr�prio tablespace, mas mesmo assim, os dados e �ndices s�o armazenados em uma tabela no mesmo arquivo tablespace.

Esta an�lise descreve os benef�cios conseguidos com um �ndice no contexto de consultas a tabela �nica, onde o uso de um �ndice acelera significativamente as procuras eliminando a necessidade de varredura completa da tabela. �ndices s�o realmente mais valiosos quando h� consultas envolvendo jun��es com m�ltiplas tabelas. Em uma consulta a uma tabela �nica, o n�mero de valores que precisamos examinar por coluna corresponde ao n�mero de linhas na tabela. Em uma consulta de m�ltiplas tabelas, o n�mero de poss�veis combina��es cresce em grandes propor��es (representado pelo produto do n�mero de linhas de cada tabela).

Supondo que temos tr�s tabelas n�o indexadas, t1, t2, e t3, cada uma contendo uma coluna, i1, i2 e i3 respectivamente, e cada uma contendo 1.000 linhas com os n�meros 1 at� 1000. Uma consulta para achar todas as combina��es de linhas de tabela nas quais os valores sejam iguais, ter� a seguinte forma:

SELECT t1.i1, t2.i2, t3.i3
 FROM t1, t2, t3
 WHERE t1.i1 = t2.i2 AND t2.i1 = t3.i3;

O resultado desta consulta deveria ser 1.000 linhas, cada uma contendo tr�s valores iguais. Se processarmos a consulta na aus�ncia de �ndices, n�o teremos nenhuma id�ia sobre quais linhas cont�m quais valores sem fazer uma varredura total. Como conseq��ncia, temos que tentar todas as combina��es para achar aquelas que casam com a cl�usula WHERE. O n�mero de poss�veis combina��es � 1.000 x 1.000 x 1.000 (um bilh�o!) que equivale a um milh�o de vezes mais do que o n�mero de casamentos retornados. Isto representa muito esfor�o perdido. O exemplo ilustra como � medida que as tabelas crescem, o tempo para processar jun��es com essas tabelas cresce ainda mais se nenhum �ndice for usado, conduzindo a um desempenho muito fraco. Podemos acelerar as coisas consideravelmente indexando as tabelas porque os �ndices nos permitem processar a consulta deste modo:

selecionar a primeira linha da tabela t1 e ver o valor contido na linha.
usar o �ndice da tabela t2 e ir diretamente para a linha que casa com valor da tabela t1. Da mesma forma, usar o �ndice da tabela t3 e ir diretamente para a linha que casa com o valor da tabela t2.
continuar com a pr�xima linha da tabela t1 e repetir o procedimento anterior. Repetir estes procedimentos at� que todas as linhas da tabela t1 sejam examinadas.

Neste caso, ainda executamos uma varredura completa na tabela t1, mas podemos fazer procuras indexadas nas tabelas t2 e t3 para extrair diretamente as linhas dessas tabelas. A consulta roda aproximadamente um milh�o de vezes mais r�pido deste modo, literalmente. Este exemplo foi constru�do com a finalidade de fazer uma observa��o, � claro. Entretanto, os problemas que o mesmo ilustra s�o reais, e acrescentar �ndices a tabelas que n�o t�m nenhum, freq�entemente resulta em consider�veis ganhos de desempenho.

O MySQL usa �ndices de v�rios modos:

como foi descrito h� pouco, �ndices s�o usados para acelerar procuras por linhas que casam com condi��es de uma cl�usula WHERE ou por linhas que casam com linhas de outras tabelas, quando uma jun��o � executada;
para consultas que usam as fun��es MIN () ou MAX (), o valor menor ou maior em uma coluna pode ser achado rapidamente sem necessidade de examinar todas as linhas;
MySQL pode usar freq�entemente �ndices para executar rapidamente opera��es de ordena��o e de agrupamento para cl�usulas ORDER By e GROUP BY;
�s vezes, o MySQL pode usar um �ndice para ler toda a informa��o necess�ria para uma consulta. Suponha que estamos selecionando valores de uma coluna num�rica indexada em uma tabela MyISAM, e n�o estamos selecionando outras colunas da tabela. Neste caso, quando o MySQL for ler um valor de �ndice do arquivo de �ndices, obter� o mesmo valor que seria obtido ao ler o arquivo de dados. N�o h� nenhuma raz�o para ler os valores duas vezes, assim o arquivo de dados n�o precisa ser consultado.

Custos da indexa��o

Podemos ver que estamos pintando um quadro �cor de rosa" quanto aos benef�cios da indexa��o. H� desvantagens? Sim, h�. H� custos envolvidos de tempo e de espa�o. Na pr�tica, estas desvantagens tendem a ser superadas pelas vantagens, mas devemos saber de que custos estamos falando.

Em primeiro lugar, �ndices aumentam a velocidade de recupera��o, por�m reduzem a velocidade de inser��es e exclus�es, assim como atualiza��es de valores em colunas indexadas. Isto quer dizer que �ndices tornam mais lentas a maioria das opera��es que envolvem escrita. Isto acontece porque a grava��o de um registro n�o s� requer escrita das linhas de dados, mas tamb�m implica em mudan�as nos �ndices. Quanto mais �ndices uma tabela tem, mais altera��es ser�o realizadas e maior ser� a degrada��o m�dia de desempenho.

Em segundo lugar, um �ndice ocupa espa�o em disco. Isto poderia fazer com que o limite de tamanho de tabela seja alcan�ado mais rapidamente do que se n�o houver nenhum �ndice:

indexar pesadamente uma tabela MyISAM pode fazer com que o arquivo de �ndices alcance o tamanho m�ximo mais rapidamente que o arquivo de dados;
para tabelas BDB que armazenam dados e valores de �ndice no mesmo arquivo, o acr�scimo de �ndices tamb�m pode fazer com que o arquivo de �ndice alcance o tamanho m�ximo mais rapidamente;
todas as tabelas InnoDB que est�o situadas dentro do tablespace compartilhado, competem pelo mesmo espa�o comum, e o acr�scimo de �ndices esgota a �rea de armazenamento mais rapidamente dentro deste tablespace. Por�m, diferentemente dos arquivos usados pelo MyISAM e pelas tabelas BDB, no InnoDB o tablespace compartilhado n�o � restringido pelo limite de tamanho do arquivo do sistema operacional, porque pode ser configurado para usar arquivos m�ltiplos. Contanto que haja espa�o em disco adicional, o tablespace pode ser ampliado pelo acr�scimo de novos componentes. Tabelas InnoDB que usam tablespaces individuais t�m restri��es do mesmo modo que tabelas BDB porque dados e valores de �ndice s�o armazenados juntos em um �nico arquivo.

A implica��o pr�tica destes fatores � que se n�o houver necessidade de um �ndice particular, ent�o n�o devemos cri�-lo.

Escolhendo �ndices

O conhecimento da sintaxe de cria��o de �ndices e tabelas n�o � suficiente para ajudar a determinar como as tabelas deveriam ser indexadas. Isto requer alguma an�lise sobre como as tabelas s�o usadas. Esta se��o d� algumas diretrizes sobre como identificar colunas candidatas para �ndices e a melhor forma de montar estes �ndices.

Indexe colunas usadas para procurar, ordenar ou agrupar, e n�o colunas que ser�o apenas exibidas como sa�da.

Em outras palavras, as melhores colunas candidatas para �ndices s�o aquelas que usam a cl�usula WHERE, colunas referenciadas em cl�usulas de jun��o ou colunas referenciadas em cl�usulas ORDER BY e GROUP BY. Colunas que s� s�o referenciadas na lista de colunas de sa�da, ap�s palavra chave SELECT, n�o s�o boas candidatas:

SELECT
 col_a <- n�o � candidata 
 FROM
 tbl1 LEFT JOIN tbl2
 ON tbl1.col_b = tbl2.col_c <- candidata
 WHERE
 col_d = expr;<- a candidate

Dessa forma, colunas que s�o referenciadas em cl�usulas de jun��o ou em express�es da forma col1 = col2 em cl�usulas WHERE s�o candidatas especialmente boas para indexa��o. Na consulta mostrada, col_b e col_c s�o exemplos desta situa��o. Se o MySQL puder aperfei�oar uma consulta que usa colunas de jun��o, reduzir� bastante as combina��es potenciais de tabela / linha, eliminando a varredura completa da tabela.

Considere a cardinalidade da coluna

A cardinalidade de uma coluna � o n�mero de valores distintos que cont�m. Por exemplo, uma coluna que cont�m os valores 1, 3, 7, 4, 7 e 3, tem cardinalidade quatro. �ndices funcionam melhor para colunas que t�m uma cardinalidade relativamente alta em rela��o ao n�mero de linhas da tabela (quer dizer, colunas que t�m muitos valores distintos e poucos valores duplicados). Se uma coluna contiver muitos valores de idade diferentes, um �ndice diferenciar� linhas prontamente. Por outro lado, um �ndice n�o ser� de ajuda para uma coluna que � usada para registrar sexo e s� cont�m os valores 'M' e 'F'. Se os valores ocorrem aproximadamente com a mesma freq��ncia, obteremos aproximadamente metade das linhas qualquer que seja o valor procurado. Dadas estas circunst�ncias, o �ndice poderia nunca ser usado, porque o otimizador de consulta geralmente ignora um �ndice em favor de uma varredura completa da tabela quando determinar que certo valor aconte�a em uma porcentagem grande das linhas de uma tabela. O valor convencional para esta porcentagem era de 30%. Hoje em dia o otimizador � mais complexo e leva em conta outros fatores, assim a porcentagem n�o � a �nica determinante para que o MySQL prefira fazer uma varredura em lugar de usar um �ndice.

...

Fim do trecho gratuito • continue abaixo

CONTE�DO EXCLUSIVO

Desbloqueie toda a DevMedia

+2000 artigos e v�deos
+40 trilhas sobre Front-end, Back-end, IA e muito mais
+5000 exerc�cios pr�ticos
Mentorias ao vivo individuais

at� 50% OFF

A partir de

R$ 79,90 /m�s

Confira outros conte�dos:

Por Paul Em 2007

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Jackson Eckermann

Por que temos que saber sobre a otimiza��o do banco de dados Mysql 4.1 e o MyIAM?

há +1 ano

Rodolfo Gomes

DevMedia

Fala Jackson, tranquilo?

ent�o o conceito de otimiza��o MyIAM pode ser replicado para as vers�es mais atuais, pois � importante ter um banco de dados otimizado principalmente quanto mais ele cresce com o volume de dados.

Espero ter auxiliado e qualquer d�vida compartilhe conosco

Grande abra�o!

há +1 ano

Luiz Silva

Um post de 2007 muito bem escrito.
N�o sei se de l� pra ca ele sofreu algumas altera��es mas ficou muito bom!

há +1 ano

Rodolfo Gomes

DevMedia

Super obrigado pelo feedback t�o positivo =D

Vc pode sim, aplicar todo aprendizado na pr�tica nos dias de hoje

E qualquer d�vida estamos a disposi��o

Grande abra�o!

há +1 ano

Otimiza��o de consultas no MySQL

Artigo da Revista SQL Magazine - Edi��o 25.

Indexa��o

Benef�cios da indexa��o

Custos da indexa��o

Escolhendo �ndices

Considere a cardinalidade da coluna

Desbloqueie toda a DevMedia

Confira outros conte�dos: