Data Deduplication: Removendo dados duplicados no Windows Server

Data Deduplication

O crescente aumento do volume de dados das organiza��es � um assunto pertinente �s equipes de infraestrutura de TI. Devido a esse aumento, torna-se necess�rio oferecer uma capacidade de storage com um volume cada vez maior.

Para o usu�rio, � imprescind�vel dispor de um bom volume de espa�o dispon�vel para armazenar os arquivos utilizados no dia-a-dia de suas atividades. Por�m, grande parte do armazenamento consumido est� relacionado a arquivos duplicados e outros dados redundantes armazenados pelos usu�rios em um ambiente de rede.

Pensando em solucionar esse problema, este artigo apresentar�, na teoria e na pr�tica, o Data Deduplication, sendo �til para os administradores de TI que pretendem implantar tal tecnologia em seu ambiente, tendo como principal objetivo a economia de espa�o utilizado e a consequente redu��o dos custos de armazenamento.

Um dos grandes desafios da administra��o de TI nos dias atuais � atender as crescentes demandas de armazenamento de dados dentro de uma organiza��o. Hoje os usu�rios necessitam armazenar milhares de arquivos texto, planilhas, imagens, v�deos, m�sicas, e-mails, entre outros tipos de dados.

H� anos essa situa��o tamb�m j� existia, em uma propor��o menor, por�m, com o avan�o tecnol�gico, os arquivos e processos ficaram maiores. Assim, para que a TI possa atender as novas demandas de neg�cio, � necess�rio investimento em v�rias frentes, e no armazenamento � uma delas.

Contudo, n�o bastasse o grande desafio de fornecer armazenamento para os usu�rios, lidando com altos volumes de dados e alto investimento em hardware, � necess�rio entender tamb�m como os usu�rios armazenam estes dados nos servidores.

N�o � incomum verificar diversos tipos de arquivos duplicados em um servidor de arquivos. Por exemplo, um grupo de usu�rios do departamento de Contabilidade recebe por e-mail a ata de reuni�o realizada por eles.

Supondo que este grupo tenha 30 pessoas, este mesmo arquivo poder� ser armazenado at� 30 vezes em locais diferentes em um compartilhamento de rede, j� que, al�m de pastas departamentais, os usu�rios possuem tamb�m pastas pessoais.

Neste exemplo, uma ata de reuni�o pode significar pouco espa�o. Por�m, dependendo do tipo de arquivo (apresenta��es de slides, v�deos, m�sicas, etc.) esse volume desperdi�ado pode ser muito maior. Assim, seria de grande ajuda se estes dados duplicados pudessem ser eliminados, sem atrapalhar as atividades dos usu�rios.

Pensando nisso, neste artigo ser� abordado o conceito de Data Deduplication no Windows Server 2012, ferramenta poderosa que auxilia os administradores de TI a eliminar os dados duplicados no seu ambiente.

O que � o Data Deduplication?

Data Deduplication � um recurso dispon�vel no Windows Server 2012 e Windows Server 2012 R2 utilizado para maximizar o espa�o de armazenamento de dados.

O conceito de elimina��o de dados duplicados n�o � novo. Atualmente existem diversas ferramentas (em formato de appliance de hardware ou software) que realizam esta fun��o, por�m, por apresentarem um alto custo e uma alta curva de aprendizado, n�o s�o adotadas pelas empresas.

At� que tivemos o lan�amento do Windows Server 2012, que trouxe como uma de suas principais novidades uma nova fun��o, chamada de Data Deduplication. O Data Deduplication � uma tecnologia baseada em software que permite maximizar o uso da capacidade de armazenamento de dados da organiza��o, e o seu o princ�pio b�sico � a n�o necessidade de armazenamento do mesmo arquivo v�rias vezes.

Como funciona a elimina��o dos dados duplicados?

Quando configurada a ferramenta Data Deduplication, o primeiro passo efetuado � uma varredura no volume em busca dos dados duplicados.

Durante este processo, o Data Deduplication simplesmente identificar� os dados que est�o em duplicidade. Ap�s identificados, a ferramenta ir� manter apenas uma c�pia do mesmo, e as demais ser�o substitu�das por uma refer�ncia � c�pia principal.

Todos sabem que os arquivos s�o formados por metadados, que cont�m informa��es sobre o nome do arquivo, atributos, entre outras. Al�m disso, tamb�m sabemos que um arquivo � composto por diversos peda�os. Na Figura 1 temos o exemplo do arquivo Teste01 no formato NTFS. Note que este arquivo possui diversos �peda�os�, descritos como A, B, C, D e E.

Formato do arquivo
Teste01 — **Figura 1.** Formato do arquivo Teste01.

J� a Figura 2 mostra o arquivo Teste02, que possui tamb�m diversos peda�os, assim como o arquivo Teste01, descritos como A, B, C, W e K.

Durante o processo de an�lise, o Data Deduplication ir� analisar os arquivos do volume em que est� configurado e ir� encontrar os dados que est�o em duplicidade.

Formato do arquivo
Teste02 — **Figura 2.** Formato do arquivo Teste02.

Nesse momento, o Data Deduplication identificar� que os arquivos Teste01 e Teste02 possuem dados em comum (duplicados). Ent�o, ser�o gerados dados de an�lise na estrutura dos dois arquivos, como indicado na Figura 3. Estes dados de an�lise armazenar�o informa��es sobre a identifica��o dos dados do arquivo e tamb�m dos links de apontamento para os blocos da c�pia principal, eliminando assim o dado duplicado.

Identifica��o dos dados
duplicados e link para substitui��o da informa��o — **Figura 3.** Identifica��o dos dados duplicados e link para substitui��o da informa��o.

Quais resultados esperar com Data Deduplication?

Para que se possa realizar uma avalia��o dos resultados a serem alcan�ados com a utiliza��o do Data Deduplication, devemos primeiro avaliar os dados que est�o dentro do volume que ser� afetado.

A efici�ncia da elimina��o dos dados duplicados ser� diretamente proporcional ao tipo de arquivo que o volume possui. As taxas de economia de espa�o podem variar de 30% a 90%, segundo dados da pr�pria Microsoft.

A Tabela 1 apresenta a rela��o de economia de volume de acordo com o tipo de conte�do dos arquivos.

Cen�rio do Volume de dados	Conte�do	Economia de espa�o (varia��o)
Documentos diversos	Texto, imagem, �udio e v�deo	30-50%
Arquivos compartilhados pelo sistemas	Bin�rios de software, arquivos de sistema, arquivos de s�mbolo	70-80%
Volumes de virtualiza��o	Arquivos de disco r�gido virtual	80-95%

Tabela 1 Redu��o vari�vel de dados em um volume com Data Deduplication.

Como a elimina��o dos dados tamb�m exige tempo de leitura, processamento e grava��o de dados, � necess�rio avaliar os recursos do servidor onde este recurso ser� aplicado. Um servidor que sempre estiver utilizando sua capacidade m�xima ter� falta de recursos para realizar a elimina��o dos dados.

Podemos exemplificar essa situa��o com um servidor de arquivos que utiliza todos os seus recursos durante o per�odo comercial (08h00 as 18h00). Em casos como este, onde o consumo de mem�ria, de processamento e de disco s�o elevados, o Data Deduplication poder� ser configurado para ser executado em um per�odo no qual a demanda � praticamente nula (fora do hor�rio comercial), e desta forma, ir� aumentar a efici�ncia do Data Deduplication.

Segundo a Microsoft, os tipos de servidores candidatos � elimina��o de dados podem ser classificados a partir da an�lise da economia de espa�o adquirida e dos recursos utilizados (mem�ria, processamento, etc.).

De acordo com exaustivos testes e laborat�rios por ela realizados, os candidatos s�o divididos em tr�s categorias:

�timos candidatos para elimina��o de duplica��o:
o Servidores de redirecionamento de pastas;
o Reposit�rio de virtualiza��o ou biblioteca de provisionamento;
o Compartilhamentos de implanta��es de software;
o Volumes de backup do SQL Server e do Exchange Server.
Candidatos que devem ser avaliados com base no conte�do dos dados a serem eliminados:
o Servidores de linha de neg�cios (servidores que hospedam aplica��es cr�ticas para o neg�cio);
o Provedores de conte�do est�tico;
o Servidores Web.
Candidatos ruins para a elimina��o de duplica��o:
o Hosts de Hyper-V;
o WSUS (Windows Server Updates Services) � Servidor de atualiza��es do Windows;
o Servidores que executam SQL Server ou Exchange Server;

o Arquivos com tamanho pr�ximo a 1 TB ou que sejam maiores que isso.

Al�m das informa��es citadas anteriormente, outros fatores devem ser levados em considera��o antes da implementa��o do Data Deduplication. S�o eles:

O volume a ser configurado n�o pode ser o de inicializa��o de sistema. O Data Deduplication n�o suporta configura��o em volumes que contenham a instala��o do sistema operacional;
A parti��o pode ser MBR (Master Boot Record) ou GPT (GUID Partition Table), e devem estar formatadas em NTFS;
Os arquivos com atributos estendidos, arquivos criptografados e arquivos menores que 32KB n�o s�o processados pelo Data Deduplication;
Arquivos que s�o abertos ou alterados constantemente n�o ter�o economia (como m�quinas virtuais, bancos de dados, etc.), j� que, como os dados est�o em uso, n�o ser� poss�vel realizar a elimina��o dos dados duplicados;
N�o suporta dispositivos remov�veis.

Backup e Restore

Um recurso que � bastante impactado (de forma positiva) pelo uso de Data Deduplication � o backup dos dados da organiza��o, visto que, com o aumento crescente da quantidade de dados sendo armazenados, consequentemente necessita-se de mais espa�o para realiza��o do backup.

Dito isso, atualmente, quais s�o os fatores que influenciam a realiza��o de uma pol�tica de backup em uma organiza��o?

Investimento: Compra de hardware para backup. Se a empresa pretende gravar os dados em fitas, � necess�rio um hardware espec�fico para que a grava��o seja realizada;
Volume: Quanto maior o volume de dados, maior ser� a quantidade de fitas necess�rias para realiza��o do backup;
Janela de Backup: A jun��o do volume de dados ao hardware utilizado ir� influenciar diretamente na janela de backup, j� que quanto maior o volume de dados, maior ser� o tempo necess�rio para grava��o.
Para diminuir essa janela, � necess�rio hardware com velocidade maior para acelerar o processo. Consequentemente, a janela de backup tamb�m � importante, porque ela deve estar alinhada �s necessidades da pol�tica de backup da empresa.
Por exemplo, caso a empresa tenha necessidade de garantir uma reten��o de dados que foram salvos nas fitas por uma semana, esta janela n�o pode ter um per�odo maior do que sete dias para ocorrer, caso contr�rio, n�o atender� � pol�tica adotada;
Restore: Quanto tempo seria necess�rio para restaura��o dos dados em caso de um desastre? Se por algum motivo acontecer um problema e a restaura��o dos dados se torna necess�ria, o tempo do restore ser� proporcional ao volume de dados persistido no backup, ou seja, quanto maior o volume, mais tempo ser� gasto para executar a restaura��o.

Um volume com os dados duplicados eliminados ir� proporcionar a realiza��o de um backup mais r�pido, consumindo um menor n�mero de fitas e otimizando o tempo de restore.

A fun��o Windows Backup, nativa no Windows Server, possui suporte para realiza��o de backups de volumes que estejam com o recurso de Data Deduplication ativado. E al�m da Microsoft, existem outros fornecedores que disponibilizam ferramentas de backup com suporte a esta fun��o (HP, CA, etc). Deste modo, antes de adquirir uma destas solu��es, � aconselh�vel consultar a documenta��o de cada produto.

Com isso, podemos afirmar que al�m do benef�cio da economia de espa�o em disco gerado pela elimina��o dos dados duplicados, o ganho com a performance do backup tamb�m � muito v�lido e deve ser analisado no momento da implanta��o desse recurso.

Data Deduplication no Windows Server 2012 R2

Neste t�pico ser� demonstrado como implementar a fun��o de Data Deduplication no Windows Server 2012 R2. Para isto, existem duas op��es: atrav�s do Server Manager e atrav�s do Powershell.

O Server Manager � uma ferramenta que tem como fun��o auxiliar os administradores de TI, centralizando diversas op��es para instala��o, configura��o e gerenciamento de fun��es e recursos de servidores. Quando um usu�rio faz logon em um servidor, por padr�o, a janela do Server Manager � iniciada, conforme demonstra a Figura 4.

Tela Inicial do Server
Manager — **Figura 4.** Tela Inicial do Server Manager.

Para realizar a instala��o do Data Deduplication atrav�s do Server Manager, na tela inicial, clique em Add roles and features. Feito isso, ser� carregada a tela inicial para instala��o e configura��o de Roles (Fun��es) e Features (Recursos).

A primeira tela mostra uma vis�o geral do assistente e lista algumas informa��es antes de prosseguir com a instala��o. Esta lista destaca algumas boas pr�ticas ao administrar servidores, a saber: ter uma senha de administrador forte; que as configura��es de rede, como os endere�os IP est�ticos, j� estejam definidas; e ter as atualiza��es do Windows Update instaladas (ver Figura 5). Para confirmar estas informa��es, basta clicar em Next. Neste ponto vale ressaltar que esses itens n�o s�o pr�-requisitos, portanto, mesmo n�o sendo atendidos, a instala��o poder� continuar sem problemas.

Tela inicial do
assistente para adicionar Roles e Features — **Figura 5.** Tela inicial do assistente para adicionar Roles e Features.

A segunda janela do assistente ir� definir o tipo de instala��o, fornecendo duas op��es: Instala��o baseada em Role ou Feature ou Instala��o para Servi�os de Desktop Remoto. Neste caso, utilizaremos a primeira op��o, como indica a Figura 6. Feito isso, clique mais uma vez em Next.

Sele��o do tipo de
instala��o — **Figura 6.** Sele��o do tipo de instala��o.

No terceiro passo deve-se selecionar o servidor ou o disco virtual onde desejamos implantar o Data Deduplication. Neste caso, marque a primeira op��o e depois selecione o servidor SRVDC01, conforme indica a Figura 7. Em seguida, clique em Next.

Sele��o do servidor de
destino — **Figura 7.** Sele��o do servidor de destino.

No quarto passo, devemos selecionar quais Roles ser�o instaladas. O assistente ir� listar as Roles dispon�veis para instala��o no servidor (como DNS Server, Hyper-V, DHCP Server, entre outros). Para tanto, expanda a op��o File and Storage Services, depois File and iSCSI Services e selecione Data Deduplication, conforme a Figura 8. Logo ap�s, clique novamente em Next.

Sele��o da Role Data
Deduplication — **Figura 8.** Sele��o da Role Data Deduplication.

No quinto passo, deve-se selecionar as Features que ser�o instaladas. Neste laborat�rio, n�o iremos instalar nenhuma Feature. Portanto, podemos avan�ar neste passo. O sexto passo, que � o final, ir� mostrar um resumo do que ser� instalado.

Nesta janela tamb�m h� uma op��o que, ao ser marcada, reiniciar� o servidor destino assim que a instala��o for conclu�da, caso seja necess�rio. Observe a Figura 9.

A segunda forma para instala��o do Data Deduplication � atrav�s do PowerShell. Para tanto, abra o Windows Powershell e execute os comandos apresentados a seguir, que tamb�m podem ser analisados na Figura 10:

Import-Module ServerManager

Add-WindowsFeature �name FS-Data-Deduplication

Import�Module Deduplication

Instala��o do Data
Deduplication atrav�s do PowerShell — **Figura 10.** Instala��o do Data Deduplication atrav�s do PowerShell.

Ap�s completar a instala��o do Data Deduplication, podemos verificar no Server Manager uma nova guia de navega��o, denominada File and Storage Services (veja a Figura 11). Ser� esta guia que ser� utilizada para realizar as configura��es deste recurso.

Server Manager com a guia
File and Storage Services — **Figura 11.** Server Manager com a guia File and Storage Services.

Agora que a fun��o est� instalada, o pr�ximo passo � habilit�-la e configur�-la nos volumes de dados desejados. Para esta demonstra��o, foi criada uma parti��o de 30 GB, denominada Teste_Dedup, conforme a Figura 12, que pode ser analisada atrav�s do Computer Management, localizado junto �s ferramentas administrativas do Windows.

Volume de dados criado
para realizar a demostra��o do Data Deduplication — **Figura 12.** Volume de dados criado para realizar a demostra��o do Data Deduplication.

Para iniciar a configura��o do Data Deduplication, no Server Manager, acesse a guia File and Storage Services e depois a guia Disk, para exibir os discos e os volumes existentes no servidor (veja a Figura 13).

Discos e volumes
dispon�veis no Server Manager — **Figura 13.** Discos e volumes dispon�veis no Server Manager.

No espa�o Volumes, visualizado na parte inferior da janela, s�o exibidos os volumes dispon�veis. Conforme comentado anteriormente, foi criado um volume para realiza��o desta demonstra��o, representado pela unidade E.

Assim, clique com o bot�o direito do mouse sobre este volume e selecione a op��o Configure Data Deduplication, de acordo com a Figura 14.

Configurando o Data
Deduplication no volume E — **Figura 14.** Configurando o Data Deduplication no volume E.

Na janela Deduplication Settings, � necess�rio selecionar algumas op��es para configurar o Data Deduplication, a saber:

� Em Data deduplication, podemos definir o tipo do volume a ser utilizado, que pode ser General Purpose file server (Servidor de Arquivos de Uso Geral) ou Virtual Desktop Infrastructure (VDI) Server (Servidor para infraesturtura virtual VDI);

� Em Deduplicate files older than (in days), podemos definir a partir de quantos dias o arquivo ser� eliminado. Caso informe 3, os dados que forem gravados s� ser�o analisados ap�s o terceiro dia;

� Em Custom file extensions to exclude, podemos definir extens�es de arquivos a serem exclu�das do processo de elimina��o de dados duplicados;

� Por fim, em To exclude selected folders from data deduplication, podemos definir pastas que devem ser exclu�das da verifica��o para elimina��o de dados duplicados.

Na Figura 15 apresentamos as configura��es que realizamos para o nosso exemplo.

Propriedades de
configura��o do Data Deduplication — **Figura 15.** Propriedades de configura��o do Data Deduplication.

Nesta janela tamb�m � poss�vel clicar no bot�o Set Deduplication Schedule..., que permite configurar a op��o Enable background optimization (Otimiza��o de Desempenho em Segundo Plano), onde o Data Deduplication ir� utilizar o sistema de forma a minimizar o impacto no desempenho do servidor, e tamb�m a op��o Enable throughput optimization (Habilitar a otimiza��o do rendimento), que possibilita agendar as datas e hor�rios espec�ficos para rodar o Data Deduplication, podendo assim consumir o m�ximo de recursos dispon�veis no servidor (veja a Figura 16).

Op��es de agendamento
para elimina��o de dados duplicados — **Figura 16.** Op��es de agendamento para elimina��o de dados duplicados.

Verificando o desempenho do Data Deduplication

Para demonstrar a execu��o deste recurso, foram gravados neste disco de teste aproximadamente 25 GB de dados variados, contendo documentos de texto, imagens, arquivos de �udio, v�deos, entre outros, como pode ser verificado na Figura 17.

Volume de dados gravado
no volume — **Figura 17.** Volume de dados gravado no volume.

Neste ambiente de teste, ap�s 48 horas, j� � poss�vel verificar e analisar os resultados obtidos com a utiliza��o do Data Deduplication. O tempo necess�rio para realiza��o da elimina��o de dados duplicados varia de acordo com o tipo de dado armazenado, o volume total de dados, entre outros fatores, como a utiliza��o da otimiza��o em segundo plano e a otimiza��o de desempenho.

Analisando as propriedades da pasta Documentos, conforme a Figura 18, pode-se verificar que o volume possui um total de dados de 23,4 GB, informado no campo Size, e ap�s a realiza��o da elimina��o dos dados duplicados, passa a apresentar um volume gravado no disco (Size on Disk) de 187 MB. Como pode-se notar, neste exemplo a economia de armazenamento de disco gerada pelo Data Deduplication foi de 23 GB.

Volume de dados ap�s a
elimina��o dos dados duplicados — **Figura 18.** Volume de dados ap�s a elimina��o dos dados duplicados.

Tamb�m � poss�vel verificar nas propriedades do disco a economia gerada pelo Data Deduplication, como demonstra a Figura 19.

Propriedades do volume de
dados — **Figura 19.** Propriedades do volume de dados.

Outra forma de validar os ganhos com Data Deduplication � atrav�s do PowerShell. Com dois comandos podemos analisar o status da elimina��o dos dados e diversas outras informa��es.

O primeiro comando mostra um resumo do volume que teve os dados duplicados eliminados (ver Figura 20). Para verificar esses dados, abra o PowerShell e digite o seguinte comando: Get-DedupVolume.

Resultado do comando
Get-DedupVolume — **Figura 20.** Resultado do comando Get-DedupVolume.

O segundo comando tamb�m mostra um resumo, por�m mais detalhado (ver Figura 21). Para verificar esses dados, com o PowerShell aberto, execute o seguinte comando:

Get-DadepVolume |fl.

Em ambos os casos � poss�vel constatar que, no laborat�rio realizado, o Data Deduplication economizou 94% do espa�o no volume (informa��o indicada no campo SavingsRate).

A utiliza��o da ferramenta Data Deduplication pode trazer muitos resultados positivos para as organiza��es. Dentre eles, podemos destacar a redu��o do espa�o utilizado para armazenamento de dados, maior agilidade na realiza��o e restaura��o de backups, e redu��o do custo de investimento em TI.

Assim, com a realiza��o de um planejamento para implanta��o deste recurso, a administra��o de TI ter� uma poderosa ferramenta que proporcionar� tanto benef�cios de economia de espa�o em disco, como benef�cios financeiros, j� que, com a redu��o de consumo, n�o ser� necess�rio o investimento recorrente em hardware para armazenamento de dados.

Links �teis

O que � .NET Core?:
Neste curso aprenderemos o que � o .NET Core, uma plataforma para desenvolvimento de aplica��es desenvolvida e mantida pela Microsoft.
6 Dicas para melhorar seu c�digo:
Para um bom programador n�o basta apenas funcionar, o c�digo precisa atender a alguns requisitos m�nimos de qualidade. Confira neste DevCast 6 dicas para tornar o seu c�digo mais leg�vel e organizado.
Como tratar exce��es na linguagem Java:
Aprenda o que � o mecanismo de exce��es do Java, conhe�a as suas categorias e saiba como desenvolver programas que consigam tratar suas pr�prias exce��es.

Saiba mais sobre Administra��o de TI ;)

Guias Engenharia de Software:
Encontre aqui os Guias de estudo sobre os principais temas da Engenharia de Software. De metodologias �geis a testes, de requisitos a gest�o de projetos!
Gest�o de Projeto:
Neste guia voc� encontrar� o conte�do que precisa para saber como gerenciar projetos de software. Confira abaixo a sequ�ncia de posts que te guiar�o do b�sico ao avan�ado em Gest�o de Projetos.
Testes de Software:
Neste guia de consulta voc� encontrar� diversos artigos e v�deos que podem ser usados ao longo dos seus estudos sobre Testes de Software, abordando diversas t�cnica e ferramentas.

Refer�ncias:

Vis�o Geral de Elimina��o de Duplica��o de Dados

Microsoft Press blog - Windows Server 2012�s Data Deduplication feature

Step-by-Step: Reduce Storage Costs with Data Deduplication in Windows Server 2012

30% OFF

NO PLANO PRIME

QUERO SER PRIME

// EXCLUSIVO DO PRIME

MENTORIAS

INDIVIDUAIS

Tenha acompanhamento individual para tirar d�vidas, receber feedback nos seus projetos e evoluir sem ficar travado nos estudos.

+ TUDO DO START: