Nas duas últimas décadas, especialmente depois que a internet se tornou mais comercial, as informações têm aumentado em quantidade e em valor. Não bastasse isso, percebe-se que usuários e instituições têm investido grandes volumes de recursos financeiros para tornar essas informações acessíveis de forma rápida e dinâmica, isto é, disponíveis no momento em que se deseja e no dispositivo escolhido.

Ter acesso a essas informações no instante em que se deseja não é tão trivial quanto se imagina. Especialmente em instituições onde a informação é um ativo de grande valor, como as instituições financeiras e governamentais, por exemplo. Nessas instituições, perder informações pode trazer consequências incalculáveis, tanto do ponto de vista financeiro quanto político, ou seja, em termos de reputação.

Neste artigo serão detalhados dois conceitos importantes para garantir a prestação contínua de serviços de TI: Alta Disponibilidade (High Availability – HA) e Recuperação de Desastres (Disaster Recovery – DR). Define-se alta disponibilidade como os atributos de um sistema para prover serviços durante períodos definidos, em níveis aceitáveis ou acordados e mascarar interrupções não planejadas dos usuários finais. Na recuperação de desastres, por outro lado, o foco está em assegurar a capacidade de recuperação do sistema até mesmo na presença de falhas de múltiplos componentes. Portanto, são conceitos complementares.

Alta disponibilidade

De acordo com o Service Availability Forum, serviços ou aplicações de alta disponibilidade são aquelas que permanecem por 99,999% do tempo disponíveis (os cinco noves de disponibilidade). Considerando o tempo de um ano, com previsão de funcionamento de 7 dias por semana e 24 horas por dia, 99,999% significam que o sistema estaria desligado por 5 minutos e 35 segundos aproximadamente. É difícil atingir esse grau de alta disponibilidade, mas outros níveis – quatro ou três noves – também são aceitáveis. A Tabela 1 resume esses níveis.

Nível de disponibilidade

Tempo no ar

Tempo máximo fora do ar por ano

Cinco noves

99,999%

5 minutos e 35 segundos

Quatro noves

99,99%

52 minutos e 33 segundos

Três noves

99,9%

8 horas e 46 minutos

Dois noves

99%

87 horas e 36 minutos

Um nove

90%

36 dias e 12 horas

Tabela 1. Os níveis de disponibilidade.

Para garantir a alta disponibilidade é necessário que o sistema não apresente um ponto único de falhas, isto é, devem existir software, dados e equipamentos redundantes o suficiente para permitir uma transição (failover) transparente de sistemas quando necessário. Entretanto, não é somente isso que basta. É preciso ter também ferramentas, procedimentos e habilidades para fazer a transição transparente. Aliás, em relação aos procedimentos, quanto mais padronizados, mais fácil é sua automatização.

Entre os requisitos para se implementar a alta disponibilidade estão a duplicação de centros de processamento de dados (CPD) em locais geograficamente distantes, espelhamento ou replicação dos dados entre os diferentes CPDs, sistemas de armazenamento seguro contra incidentes e altos níveis de segurança lógica e física de dados nos CPDs. Note que esses requisitos afetam outras características importantes dos sistemas que não devem ser negligenciadas, tais como a escalabilidade, flexibilidade, adaptabilidade e capacidade de recuperação.

Com as replicações e redundâncias exigidas pela alta disponibilidade, os sistemas se tornam menos escaláveis e menos flexíveis. Em outras palavras, qualquer demanda por aumento em sua capacidade de armazenamento ou de processamento, ou ainda qualquer mudança nos requisitos de software, implicará em investimentos dobrados ou triplicados em equipamentos ou sistemas. Portanto, é preciso cautela e um projeto muito bem concebido para evitar mudanças muito drásticas ou frequentes.

Recuperação de desastres

No conceito de recuperação de desastres, por sua vez, é preciso assegurar que a infraestrutura de suporte aos dados espalhada nos diversos sítios é consistente. Assim, em caso de falhas nos diversos componentes localizados em um sítio, um CPD em outro sítio poderá assumir as transações de forma transparente.

É preciso destacar que, diferente do conceito de alta disponibilidade, em uma situação de recuperação de desastres uma pequena perda de dados transacionais é aceitável. Dados transacionais são aqueles que descrevem uma transação (inserção, remoção, alteração) no banco de dados. Essa perda de dados transacionais é facilmente recuperável através dos logs gerados pelo sistema de bancos de dados. Em razão dessa característica, é possível considerar a replicação assíncrona de dados em ambientes adequados para a recuperação de desastres.

Replicação de dados em curta distância e em longa distância

Tanto no conceito de alta disponibilidade, quanto em recuperação de desastres, a replicação dos dados é fundamental para a continuidade dos serviços. Quanto menor a distância entre os sítios que mantêm os dados, maior é a velocidade de atualização dos dados em locais diferentes. Por outro lado, quanto mais próximos entre si, maior é a probabilidade de um evento indesejado atingir ambos os locais. Exemplos de eventos indesejados podem incluir desde a falta de energia prolongada (o temido apagão) até eventos da natureza como terremotos, enchentes e excesso de ventos.

Nesse texto, considera-se curta a distância entre 20 e 30 km. Acima disso, considera-se longa distância. A replicação em curta distância provê proteção suficiente para os requisitos de recuperação de desastres, é mais barata e mais simples de se implementar em comparação às soluções de longa distância.

Com a replicação síncrona, as atualizações feitas pela aplicação em um sistema de armazenamento em um sítio são – quase – simultaneamente feitas em outro sistema em local remoto. A resposta à atualização somente é fornecida pela aplicação quando os dados estão seguros em ambos os locais.

As replicações de dados em longas distâncias e assíncronas são mais indicadas para recuperação de desastres. A principal razão para isso é que se torna difícil e mais lento manter o sincronismo entre as transações quando os sítios estão distantes entre si. Ademais, conforme mencionado antes, em recuperação de desastres, uma pequena perda de dados transacionais é tolerável.

Topologia de CPD que combina Alta Disponibilidade e Recuperação de Desastres

Para combinar os conceitos de HD e DR, uma solução bastante comum para aplicações críticas é a topologia 3-sítios. Essa topologia permite algumas variações em função da independência entre os sítios. Considera-se um sítio independente dos demais quando existe uma independência de fornecimento de energia, sistemas de ar condicionado, sistemas de backup, conectividade das redes, segurança física e equipamentos, entre outros.

Uma das variações mais simples, descrita na Figura 1, mantém dois sítios (primário e secundário) em um único local físico, por exemplo, uma sala em um prédio; e um terceiro sítio em um local remoto. Os sítios primário e secundário compartilham a mesma infraestrutura física, mas possuem sistemas (hardware, redes, discos) redundantes. O sítio terciário, independente, permanece em um local remoto para prover recuperação de desastres, caso necessário.

Figura 1. Variação 1 da Topologia 3-sítios.

Uma segunda variação da topologia 3-sítios é ilustrada na Figura 2. Esta variação, baseada na primeira, considera também que os sítios primário e secundário estão no mesmo local, porém bem separados (cerca de 500 metros de distância entre eles). Além disso, contam com infraestruturas diferentes, por exemplo, em salas isoladas no mesmo prédio, com fornecimento de energia e conectividade independentes.

Figura 2. Variação 2 da Topologia 3-sítios.

Na terceira variação da topologia, os três sítios são remotos e totalmente independentes uns dos outros, conforme mostrado na Figura 3. A alta disponibilidade é provida entre os sítios primário e secundário, enquanto o sítio terciário provê a recuperação de desastres. Nessa situação, a latência é um fator a ser considerado, pois a distância entre os sítios primário e secundário influencia o sincronismo das operações.

Figura 3. Variação 3 da Topologia 3-sítios.

Existe ainda uma quarta variação, baseada na terceira, na qual o sítio terciário possui apenas o sistema de armazenamento de dados (storage), conforme descrito na Figura 4. Em caso de falha, o storage é acoplado ao sítio – primário ou secundário – que sofreu a pane. Essa quarta variação é mais barata, porém o tempo necessário para a recuperação é bem maior que as demais variações.

Figura 4. Variação 4 da Topologia 3-sítios.

Conclusões

A continuidade dos serviços providos por uma instituição reflete diretamente na sua reputação e no seu valor de mercado. Por isso, é importante investir na disponibilidade dos servidores, bem como na rápida recuperação em caso de desastres. Entretanto, essas ações requerem planejamento. Afinal, nem todos os serviços são essenciais para a continuidade dos negócios. A redundância dos equipamentos e a topologia são os primeiros aspectos a serem considerados na implementação de alta disponibilidade e recuperação de desastres.