Paralelismo do SQL Server com o CXPACKET

Vou contar uma hist�ria, imagine que temos em um col�gio uma classe de v�rios alunos e o professor precisar realizar uma tarefa de busca por boletins que tenham nota igual a 10. O professor ent�o decide atribuir esse trabalho aos seus alunos com o objetivo agilizar a conclus�o dessa busca extensa, pois existem dezenas de boletins a serem vistos. S�o divididos entre os alunos alguns pacotes contendo diversos boletins para analise, em pouco tempo os alunos mais velozes j� terminaram o trabalho, mas existem os mais lentos que provavelmente est�o com dificuldade de leitura ou podem ter sido impactados por uma distribui��o incorreta na quantidade de boletins nos pacotes, ou seja, alguns podem ter recebido a mais do que outros. Enquanto isso o professor est� esperando pelo retorno dos pacotes de forma sincronizada por todos os alunos para poder dar a tarefa como conclu�da.

A analogia acima demonstra de forma simples a ideia do funcionamento do paralelismo, a tarefa � quebrada em peda�os e espalhada entre m�ltiplos alunos para obter uma conclus�o mais r�pida, ou seja, otimizando a tarefa, caso contr�rio apenas um aluno seria demandando de todo o trabalho e exigiria um esfor�o enorme, al�m de demorar a concluir. Atrav�s da hist�ria inicial conseguimos perceber que o uso paralelismo � bom, mas existem ressalvas e quem vai servir de term�metro para definirmos o melhor comportamento do paralelismo no ambiente SQL Server ser� o Wait Type CXPacket.

Paralelismo

O paralelismo no SQL Server � um recurso que tem o objetivo de reduzir o tempo de processamento das consultas e para isso as elas s�o divididas em v�rios peda�os menores chamados de Task, em seguida cada Task � atribu�da a uma Worker Thread que executar� parte da consulta. A Worker Thread � uma abstra��o que representa uma �nica Thread do sistema operacional. Ap�s essa divis�o cada Thread que faz parte deste trabalho ser� executada em um Scheduler diferente, ou seja, em um n�cleo do processador l�gico espec�fico. A quantidade de Schedulers que envolve os processadores que ser�o utilizados para execu��o das tarefas � chamado de DOP - Degree of Parallelism.

A divis�o de tarefas e sincroniza��o ao final das execu��es em paralelo � feita por operadores que chamamos de Exchange Operators. Antes do fim da execu��o da Task pela Thread, essa tarefa fica aguardando para ser sincronizada com as demais e assim retornar os dados da consulta para o usu�rio. Enquanto a consulta espera pela sincroniza��o, � poss�vel notar na DMV sys.dm_exec_requests ou sys.dm_os_waiting_tasks o famoso Wait Type CXPacket, ele representa essa sincroniza��o feita pelos Exchange Operators.

Internamente

Os Exchange Operators tem dois subcomponentes chamados de Produtora e Consumidora. Quando os registros passam atrav�s dos operadores de paralelismo (Distribute Streams, Repartition Streams e Gather Streams), tamb�m conhecidos como Exchanges, eles criam os pacotes, chamados de Packets. Uma Thread Produtora enche os pacotes com dados e os envia atrav�s dos operadores do paralelismo e depois a Thread Consumidora recebe esse pacote. Uma espera (Wait) relacionada ao CXPacket ocorre quando a Thread consumidora quer receber o pacote, mas n�o existe pacote pronto ainda ou quando a Thread produtora quer enviar um pacote, mas o Buffer do CXPacket est� cheio.

Novamente consultando a DMV sys.dm_os_waiting_tasks quando est� presente o Wait Type CXPacket, a coluna Resource_description mostra algumas informa��es relevantes. Primeiramente, quando � visto o valor e_waitPipeGetRow significa que existe uma Thread consumidora est� aguardando para receber o pacote e caso apare�a, o valor e_waitPipeNewRow significa que a Thread produtora � quem est� aguardando para passar o pacote atrav�s dos operadores do paralelismo.

Ao verificar o plano de execu��o podemos ver algumas informa��es detalhadas, por exemplo, no operador Repartition Streams � poss�vel observar que em uma das �ltimas linhas de informa��o � apresentado o campo Node ID com valor igual a 5. Esse � o ID do operador do paralelismo e basicamente indica que a sub-�rvore que est� por baixo dele est� sendo executado. Atrav�s da coluna Resource_description da DMV sys.dm_os_waiting_tasks � poss�vel tamb�m ver essa informa��o do Node ID. Veja exemplo na Figura 1.

Exemplo do Node ID no plano
de execu��o e na consulta da DMV.

Figura 1. Exemplo do Node ID no plano de execu��o e na consulta da DMV.

Cost Threshold for Parallelism

Para saber quando uma consulta no SQL Server poder� se beneficiar do paralelismo em sua execu��o existe a configura��o do Cost Threshold for Parallelism, que atribui um delimitador para determinar quando a consulta deve ser paralelizada. O valor utilizado para definir o Cost Threshold for Parallelism � baseado no custo estimado do plano de execu��o da consulta, que � medido em segundos e baseado no cruzamento de informa��es aproximadas de CPU e IO para que o otimizador consiga determinar a melhor forma de executar a consulta em um hardware espec�fico. Veja exemplo na Figura 2.

Exemplo do custo estimado
do plano de execu��o da consulta

Figura 2. Exemplo do custo estimado do plano de execu��o da consulta.

Continuando na analogia inicial, o Cost Threshold for Parallelism pode ser comparado a quantidade de boletins que ser� necess�rio serem feito a an�lise, se existirem apenas 30 boletins provavelmente n�o fara sentido gastar tempo distribuindo entre os alunos esse trabalho e ao final ainda esperar a entrega sincronizada de todos, talvez seja melhor que o pr�prio professor fa�a esse trabalho, pois s�o apenas poucos boletins para analisar.

O valor padr�o definido para o Cost Threshold for Parallelism � 5, ou seja, para que o SQL Server possa utilizar o paralelismo na consulta este valor deve ser alcan�ado. Como foi dito, o custo estimado da consulta � medido em segundos e o interessante � que j� se foram os tempos em que o custo de determinada consulta podia ser medido utilizando essa m�trica, hoje em dia isso n�o tem menor sentido, at� por que o SQL Server n�o sabe o qu�o r�pido � o seu Storage ou a CPU, sendo assim, � uma quest�o de aproxima��o abstrata. O valor padr�o de 5 segundos foi configurado desta maneira nos anos 90�, quando os computadores tinham apenas processadores com um n�cleo e os discos muito menos eficientes, nada comparado a hoje que temos uma grande quantidade de mem�ria e discos SSD, por exemplo. Veja exemplo na Figura 3.

Exemplo da configura��o do
Cost Threshold for Parallelism na inst�ncia

Figura 3. Exemplo da configura��o do Cost Threshold for Parallelism na inst�ncia.

Uma d�vida comum � se realmente deve ser ajustado ou n�o o valor do Cost Threshold for Parallelism. A equipe do SQLSkills elaborou a consulta abaixo que pesquisa nos planos de execu��o em Cache e busca os custos associados aos planos de execu��o correntes que utilizaram o paralelismo, ou seja, dessa forma � poss�vel ver o custo estimado da consulta e determinar se elas est�o l� desnecessariamente ou n�o. Veja o c�digo na Listagem 1 e o exemplo do resultado na Figura 4.

Listagem 1. Consulta para an�lise da melhor configura��o para o Cost Threshold for Parallelism.


  SET TRANSACTION ISOLATION LEVEL READ UNCOMMITTED; 
  WITH XMLNAMESPACES   
  (DEFAULT 'http://schemas.microsoft.com/sqlserver/2004/07/showplan')  
  SELECT  
       query_plan AS CompleteQueryPlan, 
       n.value('(@StatementText)[1]', 'VARCHAR(4000)') AS StatementText, 
       n.value('(@StatementOptmLevel)[1]', 'VARCHAR(25)') AS StatementOptimizationLevel, 
       n.value('(@StatementSubTreeCost)[1]', 'VARCHAR(128)') AS StatementSubTreeCost, 
       n.query('.') AS ParallelSubTreeXML,  
       ecp.usecounts, 
       ecp.size_in_bytes 
  FROM sys.dm_exec_cached_plans AS ecp 
  CROSS APPLY sys.dm_exec_query_plan(plan_handle) AS eqp 
  CROSS APPLY query_plan.nodes('/ShowPlanXML/BatchSequence/Batch/Statements/StmtSimple') AS qn(n) 
  WHERE  n.query('.').exist('//RelOp[@PhysicalOp="Parallelism"]') = 1

Exemplo do resultado da
consulta

Figura 4. Exemplo do resultado da consulta.

Devemos analisar o valor da coluna Usecounts que conta a quantidade de vezes que aquele plano de Cache foi executado, dessa forma � poss�vel verificar alguma falta de �ndice associado �s consultas com maior custo na coluna StatementSubTreeCost e tentar otimiz�-las para que n�o necessitem do paralelismo em suas pr�ximas execu��es. Entretanto existem consultas com custos relativamente altos que n�o s�o poss�veis de otimizar para reduzir o custo na inten��o de ficar a baixo da margem do Cost Threshold for Parallelism, a decis�o nesse caso deve ser optar por alterar o valor padr�o.

Max Degree of Parallelism

O comportamento do paralelismo no ambiente do SQL Server pode ser alterado para tentar conseguir uma execu��o mais r�pida nas consultas ou para evitar a sobrecarga no servidor, para isso temos a op��o do Max Degree of Parallelism que determina o n�mero m�ximo de n�cleos da CPU que podem participar da execu��o da consulta. O valor padr�o � 0, ou seja, permite o uso de todos os n�cleos dispon�veis nos processadores. Veja exemplo na Figura 5.

Exemplo da configura��o do Max
Degree of Parallelism na inst�ncia

Figura 5. Exemplo da configura��o do Max Degree of Parallelism na inst�ncia.

A Query Hint MaxDop tamb�m pode ser utilizada para parametrizar ao n�vel de consulta a quantidade de n�cleos do processador a serem utilizados. Essa op��o subscreve o Max Degree of Parallelism configurado ao n�vel de inst�ncia. Veja exemplo nas Figuras 6 e 7.

Exemplo do uso da Query
Hint MaxDop na consulta

Figura 6. Exemplo do uso da Query Hint MaxDop na consulta.

Exemplo do uso da Query
Hint MaxDop no processo de Index Rebuild.

Figura 7. Exemplo do uso da Query Hint MaxDop no processo de Index Rebuild.

CXPacket

O CXPacket � um dos Wait Types mais controversos, no sentido em que muitas pessoas interpretam errado o seu papel. Ele pode ser categorizado como um Wait Type de sincroniza��o por que � exatamente o que ele faz, sincroniza os trabalhos de paralelismo existente numa consulta, sendo assim, caso ele esteja presente � por que existe uma execu��o de consulta sendo paralelizada e n�o necessariamente problemas de gargalo.

An�lise Inicial

Antes de qualquer a��o no servidor algumas perguntas devem ser respondidas caso o Wait Type CXPacket apare�a:

Eram esperadas consultas utilizando paralelismo no ambiente?

Processos de manuten��o como um Index Rebuild ou um DBCC CheckDB podem utilizar do paralelismo, mas normalmente n�o devem ser encontrados muitos CXPackets, mas caso esteja, com certeza deve ser considerado que existe algo em execu��o no SQL Server.

Os Wait Times est�o altos?

Se tem a presen�a de CXPacket mas os Wait Times est�o baixos, provavelmente n�o ser� nada. Agora se existem altos Wait Times para o CXPacket significa que longas consultas est�o em execu��o utilizando paralelismo. Quando ocorre esse cen�rio de altos Wait Times ser� necess�rio verificar as outras tarefas que podem estar envolvidas na consulta paralelizada para tentar entender o que pode estar acontecendo no ambiente, como por exemplo, um Wait Type PageIOLatch_SH junto ao CXPacket pode indicar que foi feito um Table Scan por um �ndice ineficiente.

Atrav�s da DMV sys.dm_exec_requests e sys.dm_os_waiting_tasks � poss�vel acompanhar os Wait Times durante a execu��o das consultas paralelizadas. Veja exemplo nas Figuras 8 e 9.

Exemplo do retorno das DMVs

Figura 8. Exemplo do retorno das DMVs.

Exemplo de Wait Types diferentes
no retorno da DMV

Figura 9. Exemplo de Wait Types diferentes no retorno da DMV.

Uma vez que foram respondidas as perguntas acima, ent�o o que fazer?

Talvez n�o seja necess�rio fazer nada, se � esperado que sua aplica��o disparasse consultas que utilizem paralelismo, n�o � visto altos Wait Times e n�o est� acontecendo problemas de desempenho, provavelmente n�o h� o que se preocupar.

Piores Pr�ticas

Uma das pr�ticas mais comuns e contradit�rias � ao se deparar com paralelismo consumindo todo o recurso de CPU do servidor alterar imediatamente a op��o do Max Degree of Parallelism para 1, ou seja, apenas um n�cleo do processador pode ser utilizado na execu��o, n�o utilizando o paralelismo independentemente do qu�o grande � o custo da consulta.

Essa altera��o imediata tem como objetivo de tentar evitar a sobrecarga do servidor, minimizando os picos de CPU que s�o comuns durante o paralelismo, mas o efeito pode acabar sendo o inverso, como por exemplo, em opera��es manuten��o como, Index Rebuild e DBCC CheckDB que se beneficiam do paralelismo e fatalmente ser�o prejudicadas.

Observando a DMV sys.dm_exec_requests no momento da execu��o de uma consulta com o Max Degree of Parallelism igual a 1 n�o veremos o CXPacket, mas bem prov�vel que estar� em seu lugar o Wait Type SOS_Scheduler_Yield. A presen�a desse Wait Type significa que a consulta poderia concluir mais rapidamente se tivesse mais recurso de CPU, mas n�o necessariamente representa que o seu servidor precisa de mais recurso de CPU e sim a consulta.

Melhores Pr�ticas

Ainda relacionado � configura��o do Max Degree of Parallelism, a Microsoft tem documentado as diretrizes para o uso dessa configura��o em todas as vers�es do SQL Server para que seja usado como modelo base em seu ambiente, afinal o uso do valor padr�o n�o � a melhor recomenda��o.

Pegando como base a mais atua diretriz para ambientes t�picos, � dito que a recomenda��o que para servidores com mais de 8 n�cleos nos processadores � necess�rio configurar a op��o Max Degree of Parallelism igual a 8, para menores o valor configurado deve 0, ou seja, utilizando todos os n�cleos dos processadores dispon�veis. Claro que existem muitas vari�veis a serem levadas em considera��o para arquiteturas e configura��es de ambientes diferentes, como por exemplo, servidores NUMA com HyperThreading ou at� quando � utilizado o Affinity Mask. Recomendo a leitura completa da documenta��o, mas a utilizem apenas como base para encontrar a configura��o ideal, sendo que, para isso � necess�rios testes em ambientes espec�ficos.

A mudan�a citada nas piores pr�ticas visa solucionar o comum problema de consultas desnecess�rias utilizarem o paralelismo em suas execu��es e gastarem recursos excessivos do servidor. A melhor pr�tica para solucionar esse problema normalmente est� na configura��o do Cost Threshold for Paralellism que provavelmente est� permitindo consultas menores utilizarem o paralelismo. Precisamos elevar esse valor para nos adequarmos a atual realidade de hardware moderno e com certeza o valor padr�o n�o representa uma consulta grande, pois para as pequenas n�o h� a necessidade do uso do paralelismo.

Restri��es

Assim como existem consultas sendo paralelizadas sem necessidade, tamb�m temos as consultas que gostar�amos que fossem paralelizadas, mas isso n�o acontece. Assumindo que o custo da consulta � maior que o Cost Threshold for Paralellism, a configura��o do Max Degree of Parallelism e da Query Hint MaxDop est�o diferentes de 1, ent�o nos deparamos com os inibidores do paralelismo, ou seja, restri��es do SQL Server para o uso do paralelismo nas execu��es.

Recursos que for�am o plano de execu��o inteiro a n�o utilizar o paralelismo:

Todas as UDF (User-defined Functions);
CLR que utilizam UDF;
Cursores Din�micos;
Miscellaneous built-ins: Erro_Number(), @@Trancount, Object_ID(), etc.

Recursos for�am parte do plano de execu��o a n�o utilizar o paralelismo, mesmo que outras partes consigam:

System Table Scan;
Sequence Function;
Top;
Query Recursiva;
Todas as TVF (Multi Statement Table-Value Function);

Encontrando o Balan�o

Sabendo todos esses pontos comentados temos ent�o que encontrar o ponto de equil�brio nas configura��es e melhores pr�ticas. Todas as sugest�es a serem comentadas devem ter sua efetividade analisada em um ambiente de testes, a aplica��o em produ��o deve ser feita em uma janela de manuten��o, por que quando voc� faz altera��es das configura��es do comportamento do paralelismo o SQL Server apaga todos os planos de execu��o que est�o em Cache.

Nosso objetivo ser� o diminuir o CXPacket, mas n�o elimina-lo por completo, pois j� vimos que o paralelismo � bom quando aparecem as grandes consultas para serem executadas, como relat�rios que voc� quer conclua a execu��o r�pida usando o m�ximo de CPU.

Inicialmente mudaremos o Cost Threshold for Paralellism para 50, essa � uma indica��o do MCM Brent Ozar que encontrou essa medida ap�s efetuar v�rias analises em diversos ambientes de clientes. Claro que se poss�vel � v�lido fazer uma an�lise profunda, para isso comece utilizando a consulta apresentada anteriormente feita pela equipe do SQLSkills. Fa�a a an�lise dos planos de execu��o em Cache buscando as consultas que est�o compiladas com maior custo, garantindo que elas sejam capazes de utilizar o paralelismo e as que precisam ser executadas com apenas um n�cleo com o custo menor que o valor do Cost Threshold for Paralellism, dessa forma o valor ideal ser� encontrado.

Desenvolva bem as consultas para evitar os inibidores do paralelismo, assim n�o haver� restri��es inconvenientes.

Para analisar os impactos da altera��o do valor do Max Degree of Parallelism, primeiramente utilize o comando Set Statistics Time On para pegar a m�dia do tempo de respostas das consultas comuns antes e comparar ap�s efetuar a altera��o.

Ap�s as mudan�as, a pr�xima semana deve ser monitorado os indicadores de CPU, Waits Types com Wait Times mais altos e planos de execu��o em Cache, dessa forma ser� poss�vel observar o CXPacket diminuindo o seu tempo de Wait Time, mas saiba que ele nunca ir� desaparecer completamente.

Ambiente OLTP

O ambiente OLTP � caracterizado por um alto volume de pequenas transa��es id�nticas, que geralmente s�o opera��es r�pidas de Select, Insert, Update e Delete.

Diferente de um ambiente de Data Warehouse ou de aplica��o de relat�rio onde intuitivamente o paralelismo ir� dividir a consulta em peda�os menores, as pequenas transa��es OLTP normalmente n�o requerem, pois n�o queremos que os operadores do paralelismo gastem seus recursos de CPU para uma execu��o r�pida. Para altos volumes de transa��es OLTP � importante n�o desperdi�ar recursos de hardware.

Baseado no argumento acima existem alguns especialistas que defendem que para ambientes OLTP a melhor pr�tica � sempre manter a configura��o do Max Degree of Parallelism igual a 1, por que podem existir consultas com agrega��o ou algo do tipo que possam comprometer os recursos que um ambiente OLTP possa precisar. Al�m disso, geralmente aplica��es OLTP bem otimizadas n�o v�o realizar nenhum paralelismo, a menos que um �ndice ou estat�stica esteja faltando, exista alguma clausula �where� incompleta ou a consulta n�o � na verdade uma transa��o OLTP.

Realmente deixar a configura��o padr�o para ambiente OLTP n�o � a melhor pr�tica, mas tamb�m n�o � prudente definir como regra obrigat�ria o uso da configura��o como 1, que for�a o uso de apenas um n�cleo do processador na execu��o, isso pelo fato de o paralelismo ser um recurso do SQL Server e ao configurar dessa maneira sugerida, na realidade o recurso est� sendo desabilitado, sendo assim, a melhor pr�tica � encontrar os motivos pelos quais a execu��o da consulta com a configura��o diferente de 1 pode estar afetando o seu servidor, para que somente ap�s isto possa ser tomado a decis�o da melhor configura��o a ser feita no ambiente.

Um bom indicador a ser considerado, � avaliar atrav�s da DMV sys.dm_exec_requests se em seu ambiente OLTP dedicado � visto o CXPacket por mais de 5 % de todas as esperas de recursos do SQL Server e caso esteja, ent�o voc� est� provavelmente experimentando um gargalo devido ao paralelismo e pode recorrer a mudan�as no Max Degree of Parallelism.

Ambientes OLAP e Relat�rio

Quando � feito o processamento de um Data Warehouse ou Relat�rio, a busca � feita em grandes volumes de dados e por um longo per�odo, normalmente � onde o paralelismo faz mais sentido para otimizar o rendimento.

Comparado ao OLTP, o Data Warehouse s�o caracterizados por um n�mero pequeno de diferentes grandes transa��es, al�m de tipicamente inclu�rem opera��es de leitura em massa.

Observa��es Finais

Para ambientes que s�o tanto OLTP quanto OLAP � um desafio, pois o balan�o correto tem que ser encontrado entre o valor definido ao Maximum Degree of Parallelism e o Cost Threshold for Parallelism. O recurso Resource Governor � bem �til para esse tipo de cen�rio, por que podem ser criados diferentes ambientes com configura��es espec�ficas do MaxDop.

Existem diversas maneiras de analisar os Wait Types no SQL Server, 2 deles apresentamos atrav�s de DMV, mas tamb�m � poss�vel utilizar recursos como, rastreamento do Extended Events, contadores de Performance Monitor e at� ferramentas de monitoramento como MDW, Activity Monitor.

De forma geral acredito que paralelismo se apresenta como uma clara oportunidade de efetuar Tuning na consulta, por que o servidor em muitos dos casos escolhe por utilizar o paralelismo pelo fato de ele supor que ser� a maneira mais r�pida de retornar os resultados da consulta e com melhorias na mesma, talvez possamos deixar o retorno ainda mais r�pido sem a necessidade do uso do paralelismo.

Espero que atrav�s deste artigo tenha conseguido esclarecer grande parte das d�vidas relacionadas ao paralelismo e o CXPacket. Claro que esse assunto pode ser abordado muito mais profundamente, mas de forma geral esses conceitos b�sicos s�o suficientes para desmistificar muito sobre o que � dito a respeito de todos os pontos que comentamos.

// 25 ANOS FORMANDO PROGRAMADORES

APRENDA A

PROGRAMAR DE VERDADE

Um caminho claro do zero ao avan�ado, com pr�tica de verdade.

Voc� constr�i projetos reais desde o come�o e sai sabendo programar sozinho, sem copiar c�digo de professor.

Forma��es completas

+40 Projetos

+5000 exerc�cios

+40 Tecnologias

Mentorias individuais

Suporte com IA

Comunidade de alunos

QUERO COME�AR AGORA

Confira outros conte�dos:

Por Bruno Em 2014