SQL Server Transactions: Arquitetura de logs de transação no SQL Server

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Neste artigo, estaremos interessados em analisarmos a arquitetura dos logs de transa��o. Neste momento, teremos ent�o uma vis�o geral que ser� apresentada com rela��o aos VLF�s, que s�o os Virtual Log Files. Trataremos no decorrer do artigo com rela��o a quest�es de armazenamento, truncamentos e considera��es com rela��o a espa�os utilizados por estas VLF�s. Temos muito o que compreender sobre os logs daqui pra frente para que possamos garantir uma maior seguran�a com rela��o ao armazenamento e utiliza��o dos logs.

O que s�o os VLF�s (Virtual Log Files)

Os VLF�s s�o arquivos sequenciais, os quais em outras palavras, s�o utilizados pelo SQL Server para escrever a sequ�ncia dos logs de transa��o, o que ao contr�rio de arquivos de dados, que tendem a ser escritos de uma forma aleat�ria.

Considera��es de armazenamento

O que podemos considerar com rela��o a maneira diferenciada com a qual os dados e arquivos de log s�o escritos significa, dentre outras coisas, que eles possuem tamb�m considera��es de armazenamento diferentes a ser abordadas, como por exemplo no que diz respeito � configura��o de RAID�s apropriados para as unidades de disco que armazenam cada tipo de arquivo.

Para cada registro de log que for inserido no arquivo de log, este � marcado por um n�mero de sequ�ncia l�gica (LSN). No caso, quando um banco de dados e seus arquivos de log associados s�o criados, o primeiro registro de log marca o in�cio do arquivo l�gico, o que nesta fase coincidir� com o in�cio do arquivo f�sico. Os LSN�s com o passar do tempo, passam a crescer, e se tornar cada vez maior, onde o registro de log mais recentemente adicionado ter� sempre o maior LSN, e marcar� o fim do arquivo l�gico. Todos os registros de log associados a uma determinada transa��o est�o ligados em uma cadeia de LSN com ponteiros que apontam tanto para a frente quanto para tr�s, para que desta forma as opera��es na transa��o apresentem as transa��es que sucederam e precederam a opera��o atual. Em seus processos internos, o SQL Server realiza a divis�o de um arquivo de log de transa��es em um n�mero de se��es, as quais s�o chamadas de arquivos de log virtuais (VLF). A Figura 1 nos mostra um registo de transa��es constitu�do por cinco VLF�s, e que tamb�m marca a por��o ativa do log.

Figura 1. Por��o de um log transacional constitu�do por cinco partes.

De fato, h� uma s�rie de raz�es, al�m de ser parte de uma transa��o ativa que pode manter um registro de log ativo, mas neste momento o que nos importa � que, se um registro de log � necess�rio para qualquer opera��o ou atividade existente, o registro de log estar� ativo e, como tal, o VLF ser� parte ativa no processo. Neste processo, o registro de log mais recente sempre ter� o maior LSN, apresentado de acordo com a Figura 1, onde demarcamos a por��o final ativa como sendo LastLSN, e com isso marcando o fim l�gico do log. Todos os registros subsequentes passam a ser escritos para o fim l�gico do log. Como j� pod�amos imaginar, a parte do arquivo que se encontra entre o registro MinLSN e o fim l�gico do log � chamado de log ativo. � importante notarmos que o registro ativo n�o cont�m apenas detalhes de transa��es ativas em seu processo, como por exemplo, consideremos um caso em que o MinLSN seja definido por um registro de log para uma transa��o aberta (T1), que come�ou exatamente �s 10:00 e levou 30 minutos para ser executado por completo. Se uma segunda transa��o, chamada de T2, come�ar �s 10:10 e terminar �s 10:11, esta, ainda far� parte do log ativo, uma vez que o LSN dos registros de log relacionados ser� maior do que o MinLSN. Num segundo momento, quando o processo de T1 � finalizado �s 10:30, e uma nova MinLSN pode ser definida por um registro de log para uma transa��o aberta, chamada T3, que teve seu in�cio �s 10:25. Neste caso, os registros de log para T2 n�o far�o mais parte do log ativo.

Qualquer VLF que contenha qualquer parte do log ativo � considerado como uma VLF ativa. Como podemos observar na Figura 1, vemos que a VLF2 � um VLF ativa, pois cont�m um trecho ativo. Podemos considerar aqui, de uma forma bem simpl�ria, que as transa��es come�aram e foram comitadas, podemos imaginar ent�o que o ponto inicial do log ir� se mover da esquerda para a direita, como mostra a Figura 1, de modo que o VLF que anteriormente continha parte do log ativo se torna inativo, como � o caso do VLF1 e os VLF�s que eram anteriormente intocados, como seria o caso do VLF5, passa a fazer parte do log ativo. Agora, o que acontece para que uma VLF seja marcada como "inativo"? Este � o ponto que depende do modelo de recupera��o que estar� sendo utilizado para o banco de dados! Vejamos agora com rela��o a isso.

Truncamento de log e espa�o Reutiliza��o

Al�m de todo o conte�do abordado at� o momento, precisamos observar que a menor unidade de truncamento no arquivo de log n�o � o log individual de um registro ou mesmo de um bloco de logs, mas sim, o VLF. No caso, se houver apenas um registro de log em um VLF que ainda fa�a parte do log ativo, ent�o todo o VLF ser� considerado ativo e dessa forma, n�o poder� ser truncado. De forma geral, um VLF pode estar em um dos dois estados f�sicos, ou ativo ou inativo. No entanto, dentre os poss�veis "comportamentos" diferentes de um VLF, podemos identificar quatro estados l�gicos, os quais s�o:

Ativo - um VLF est� em seu estado ativo, quando cont�m pelo menos um registro de log que faz parte do log ativo, e por isso � necess�rio para o processo de revers�o, ou para outros fins.
Recuper�vel � � quando um VLF est� em estado inativo, mas que n�o foi truncado ou feito backup. Neste caso, o espa�o n�o pode ser reutilizado.
Reutiliz�vel � � quando um VLF est� em estado inativo, mas neste caso, ele foi truncado ou foi feito backup e o espa�o pode ser reutilizado.
N�o utilizado � neste caso, um VLF est� em estado inativo, mas h� registros de log que j� foram gravados nele.

O ato de marcar um VLF como inativo, de acordo com nossos estados l�gicos, significa mudar do estado 2 para o estado 3, o que � conhecido como o truncamento de log! Para a ocorr�ncia desse tipo de truncamento ocorrer, isso ir� depender do modelo de recupera��o que estar� sendo utilizado. Quando um banco de dados est� no modelo de recupera��o simples, um VLF ativo pode ser desativado pela ocorr�ncia do processo de checkpoint, por exemplo. J� quando o ponto de verifica��o ocorre, todas as p�ginas sujas no cache s�o liberadas para o disco e, em seguida, o espa�o no log fica dispon�vel para reutiliza��o. No entanto, nos modelos FULL ou BULK LOGGED, apenas um backup do log pode mudar um VLF ativo para inativo. Neste caso, uma vez que o backup do log tenha marcado qualquer VLF que n�o ser� mais necess�ria como inativa e, portanto, reutiliz�vel. Como apresentado pela Figura 2, podemos ver o resultado de um checkpoint (ou mesmo de um backup), que o VLF1 e parte do VLF2 foram truncados e desta forma, est�o inativos. O in�cio do registro l�gico agora � o peda�o existente do VLF2.

Figura 2. Log de transa��o com 3 VLF, depois de truncamento.

A pr�xima quest�o a ser considerada aqui � com rela��o ao que acontece quando o log ativo chega ao fim da VLF3. Neste caso, � mais f�cil pensar no espa�o que existe no arquivo de log como sendo reutilizado de maneira circular, embora existam fatores que �s vezes possam fazer padr�es de reutiliza��o de espa�o bastante arbitr�rios, e que n�s n�o iremos nos aprofundar no momento. No entanto, num caso mais simples que posamos imaginar, uma vez que o fim l�gico do registro atingir o fim de um VLF, o SQL Server ir� ent�o come�ar a reutilizar o pr�ximo VLF sequencial que est� inativo. Na Figura 1, este seria o VLF5. Quando o VLF5 estivesse completo, a reutiliza��o seria em torno dos VLF 1 e 2. No caso de nenhum dos VLF�s estivessem mais dispon�veis, seria ent�o necess�rio haver o auto crescimento do registro e a adi��o de mais VLF�s. J� no caso disso n�o ser poss�vel, devido ao auto crescimento que est� desativado ou a caixa do disco, o arquivo de log possam estar cheios, ent�o a l�gica final do log ativo vai encontrar o fim f�sico do arquivo de log, com o log de transa��es cheio, ser� emitida a mensagem de erro 9002.

Esta arquitetura explica consideravelmente a raz�o pela qual, por exemplo, uma transa��o com uma longa dura��o, ou uma transa��o replicada que por algum motivo n�o tenha sido despachada para o banco de dados de distribui��o, ou um espelho desconectado, entre outros, podem fazer com que o log cres�a demasiadamente. Por exemplo, consideremos que na Figura 1, a transa��o associada ao MinLSN seja tida por um processo demorado. O registro foi utilizado, completou os VLF�s 1, 2 e 5, e n�o h� mais VLF inativos no decorrer do processo. Mesmo que cada transa��o que tenha sido comitada ap�s o MinLSN, nenhum dos espa�os existentes nestes VLF�s pode ser reutilizado, j� que todos os VLF�s ainda fazem parte do log ativo.

Podemos ver isso em a��o com bastante facilidade, de acordo com a Listagem 1, a qual usamos primeiro para eliminar e recriar o banco de dados TestDB. Em seguida, criamos uma tabela de exemplo, atualizamos uma das linhas da tabela dentro de uma transa��o expl�cita, e deixamos a transa��o aberta. Em uma segunda opera��o, que realizaremos numa segunda aba dentro do SQL Server Management Studio (SSMS), executamos ent�o os scripts em listas de 1,2 a 1,4. Desta vez podemos ver que o espa�o n�o est� dispon�vel para reutiliza��o ap�s o backup do log. No entanto, se, em seguida, confirmarmos a transa��o e executarmos novamente o backup de log, ele ser� reutilizado.

Listagem 1. Cria��o de uma transa��o explicita.


      USE master ;
       
      IF EXISTS ( SELECT  name
                  FROM    sys.databases
                  WHERE   name = 'TestDB' ) 
          DROP DATABASE TestDB ;
      CREATE DATABASE TestDB ON
      (
        NAME = TestDB_dat,
        FILENAME = 'C:\Program Files\Microsoft SQL Server\MSSQL12.MSSQLSERVER\MSSQL\DATA\TestDB.mdf'
      ) LOG ON
      (
        NAME = TestDB_log,
        FILENAME = 'C:\Program Files\Microsoft SQL Server\MSSQL12.MSSQLSERVER\MSSQL\DATA\TestDB.ldf'
      ) ;
      DBCC SQLPERF(LOGSPACE);

Em determinados casos, onde a "�rea" que foi ocupada pelo log ativo for muito grande, no qual possam ser encontrados muitos espa�os que n�o possam ser reutiliz�veis, poder� ocorrer em algum momento o crescimento do log em tamanho. Mais adiante teremos a oportunidade de ver com rela��o a fatores que podem atrasar o truncamento do arquivo de log.

Como verificar a quantidade de VLF�s?

Em geral, o SQL Server decide qual o tamanho ideal e o n�mero de VLF�s que ser�o atribu�das. No entanto, em uma opera��o na qual o log cresce automaticamente com frequ�ncia, em pequenos incrementos, este ter� um n�mero muito grande de VLF�s com o tamanho pequeno. Este � o tipo de fen�meno que podemos chamar de fragmenta��o de log e que podemos v�-lo em a��o, em algumas medidas, onde estaremos repetindo o exemplo apresentado pela Listagem 1, enquanto questionamos a arquitetura VLF usando um comando chamado DBCC loginfo.

O DBCC loginfo � um comando n�o documentado e sem suporte oferecido pela Microsoft, que pode ser utilizado para interrogar a VLF. Ao realizarmos esta opera��o, ele nos retorna cada linha representando uma VLF e, entre outras coisas, indicando o status destas VLF�s. Quando encontramos um valor de estado sendo apresentado como 0, isso quer dizer que o VLF � utiliz�vel (o que quer dizer que est�o no estado 3 ou 4), j� quando temos um valor de estado sendo apresentado como 2, este indica que o VLF n�o � utiliz�vel (ou seja, encontra-se no estado 1 ou 2). Neste momento, basta apenas executarmos novamente o c�digo presente na Listagem 1 para eliminarmos e recriarmos o banco de dados TestDB que criamos anteriormente. E em seguida, executarmos novamente o comando DBCC loginfo como apresentado pela Listagem 2.

Listagem 2. Utiliza��o do comando DBCC loginfo.

-- verifica��o da quantidade de VLF�s
      DBCC Loginfo
      GO

Ao executarmos o c�digo apresentado pela Listagem 2, obtemos um retorno da quantidade de VLF�s geradas inicialmente com a cria��o da tabela de testes que utilizamos no momento. Temos este resultado sendo apresentado pela Figura 3, a seguir.

Figura 3. Verifica��o da quantidade de VLF�s criadas inicialmente.

Neste momento, n�o estamos preocupados com o significado de algumas das colunas que nos foram retornadas, basta notarmos aqui que oito linhas foram retornadas o que significa que temos aqui oito VLF�s, como apresentado pela Figura 3. Agora, para complementar o exemplo e vermos a quantidade de VLF�s que ser�o geradas, vamos utilizar o exemplo apresentado no artigo �Uma abordagem geral sobre os logs de transa��o�, onde executamos um script para a gera��o de 500.000 registros aleat�rios na base de dados, este script ser� apresentado atrav�s da Listagem 3. Em seguida, executaremos novamente o comando DBCC loginfo, como apresentado pela Listagem 4.

Listagem 3. Gera��o aleat�ria de 500 mil registros na tabela TestDB.


      USE TestDB ;
      GO
      IF OBJECT_ID('dbo.LogTeste', 'U') IS NOT NULL 
          DROP TABLE dbo.LogTeste;
      -- "ID" possui um range def 1 at� 500000 de numeros unicos
      -- "Inteiros" possui um range def 1 at� 50000 de numeros n�o unicos
      -- "texto";"AA"-"ZZ" string de 2 caracteres
      -- "dinheiro"; 0.0000 to 99.9999 valores monet�rios
      -- "Date" ; >=01/01/2000 and <01/01/2010 datas.
       
      SELECT TOP 500000
              ID = IDENTITY( INT,1,1 ),
              Inteiros = ABS(CHECKSUM(NEWID())) % 50000 + 1 ,
              texto = CHAR(ABS(CHECKSUM(NEWID())) % 26 + 65)
              + CHAR(ABS(CHECKSUM(NEWID())) % 26 + 65) ,
              dinheiro = CAST(ABS(CHECKSUM(NEWID())) % 10000 / 100.0 AS MONEY) ,
              Date = CAST(RAND(CHECKSUM(NEWID())) * 3653.0 + 36524.0 AS DATETIME)
      INTO    dbo.LogTeste
      FROM    sys.all_columns ac1
              CROSS JOIN sys.all_columns ac2 ;
      DBCC SQLPERF(LOGSPACE);

Agora que executamos o c�digo apresentado pela Listagem 3, realizaremos agora a an�lise da quantidade de VLF�s geradas no processo para esta tabela, isto ser� apresentado de acordo com a Listagem 4, a seguir.

Listagem 4. Nova an�lise da quantidade de VLF�s geradas para a tabela TestDB.

-- Nova quantidade de VLF�s
      DBCC Loginfo
      GO

Como resultado para esta an�lise, obtivemos um total de 31 linhas retornadas, o que significa que foram geradas 31 VLF�s no processo. As propriedades de crescimento herdadas do banco de dados modelo apresentam um tamanho pequeno inicialmente destes arquivos de log, ent�o obtemos o crescimento tamb�m em incrementos relativamente pequenos. Estas propriedades s�o inadequadas para um banco de dados sujeito a este tipo de atividade e pode levar inclusive � cria��o de um grande n�mero de VLF�s. Vejamos ent�o de acordo com a Figura 4 como ficou o resultado da segunda an�lise.

Figura 4. Gera��o do resultado da quantidade de VLF�s com dados inseridos na tabela TestDB.

Percebam inclusive, de acordo com a Figura 4, com rela��o ao status obtido nesse �ltimo processo, comparado com o primeiro caso, apresentado pela Figura 3, onde neste momento obtivemos que o status de opera��o aqui � igual a 2, o que nos diz que este espa�o n�o poder� mais ser utilizado. Diferente do apresentado pela Figura 3, onde o status continuava como 0.

O log de fragmenta��o do arquivo pode ter um impacto consider�vel sobre o desempenho, especialmente com rela��o a recupera��o de falhas, restaura��es, logs de backup, dentre outras poss�veis utilidades, em outras palavras, as opera��es que realizam a leitura do arquivo de log. Mais adiante trataremos com rela��o ao dimensionamento crescente do log de transa��o, e mostraremos como evitar a fragmenta��o dimensionando corretamente o arquivo de log. No entanto, para que tenhamos uma ideia do impacto causado, um estudante da �rea de banco de dados, tamb�m escritor, conhecido como Linchi Shea, demonstrou um enorme efeito com rela��o ao desempenho de modifica��es de dados ao comparar um banco de dados com 20.000 VLF�s com um contendo 16 VLF�s. Numa �ltima an�lise, a causa de um n�mero relativamente "razo�vel" de VLF�s num arquivo de logs vai depender bastante do tamanho do registo utilizado. Em geral, a Microsoft considera a cria��o de aproximadamente 200 VLF�s como sendo uma poss�vel causa para preocupa��es, mas em um arquivo de log muito grande (digamos, 1 TB), apresentando apenas 300 VLF�s tamb�m poderia ser considerado um problema, com os VLF�s demasiadamente grandes e limitando assim a reutiliza��o do espa�o. Mas com rela��o a este ponto, um �timo artigo a ser visto, pode ser o artigo de Kimberly Tripp "Transaction Log VLF � Too Many or Too few?" que discute essa quest�o com mais detalhes, o link estar� dispon�vel no fim do artigo para quem tiver interesse em aprimorar este conhecimento.

Neste artigo, n�s procuramos passar as informa��es m�nimas com rela��o a arquitetura do log de transa��es que � bastante necess�rio para compreendermos as quest�es b�sicas e problemas em potencial, relacionados com o truncamento, a reutiliza��o do espa�o e a fragmenta��o, ocorrida em arquivos de log. Esperamos que tenham gostado e at� a pr�xima!

LINKS

Kimberly Tripp: http://www.sqlskills.com/blogs/kimberly/transaction-log-vlfs-too-many-or-too-few/