Melhores práticas de Backup e Disaster Recovery

Para termos um plano de recuperação de desastres (DR ou Disaster Recovery) e um backup confiável, temos que pensar em toda a estrutura de TI que possuímos dentro da empresa .

Entender toda a criticidade do negócio, e o quanto de downtime, ou seja, o tempo de parada, é tolerável para sua operação. 

O propósito deste artigo é te ajudar no planejamento do seu backup e Disaster Recovery.

Para fazermos esse planejamento com excelência, temos que nos preocupar com os seguintes pontos

Atende o RPO e RTO estipulado pela empresa? 

Já falamos sobre RPO e RTO no artigo sobre Qual o melhor software de backup para servidores. Se não souber do que se trata essas siglas, acesse o link do artigo e depois volte aqui para continuar a leitura.

Para qualquer planejamento de ambientes de backup e DR, precisamos ter em mente as expectativas a serem atendidas pela política da empresa referente ao RPO e RTO.

Quais níveis de desastre devemos estar preparados?

A perda de um servidor, falha na storage de produção, indisponibilidade de todo o datacenter? 

Quantos dados eu posso perder sem impactar meu negócio? 

Quanto tempo posso ficar indisponível sem afetar meu negócio? 

Essas perguntas que irão direcionar todo o planejamento do ambiente de backup e DR

Aqui vale uma observação. É importante que as respostas para essas perguntas sejam validadas com os decisores da empresa.

Depois te ter as respostas finais para os questionamentos acima, você conseguirá ter uma visão clara das metas de RPO e RTO que a empresa precisa alcançar.

Somente depois de saber o RTO e RPO é que conseguiremos planejar ou identificar qual o hardware ideal para o ambiente, melhorias que serão necessárias para atender o RPO e RTO estabelecidos, licenciamento necessário e assim por diante. 

Janela de Backup + Replicação + Recuperação de Desastres

Com os questionamentos iniciais respondidos, já podemos começar a desenhar suas políticas de backup e recuperação de desastres, além de pensar na estrutura e investimentos necessários para alcançar as metas de proteção. 

Vamos fazer um exercício com um ambiente fictício.

Vamos supor que queremos backup de todo o ambiente produtivo da empresa.

Vamos supor que o ambiente é composto por 5 máquinas virtuais e que definimos que o nosso RPO permite a perda de, no máximo, 1 hora de informações processadas.

Diante disso, queremos que o nosso backup rode a cada 1 hora, fazendo o backup somente dos novos dados, e replicando esse backup para a filial da empresa que está em outro estado.

Além disso, queremos que seja possível fazer uma recuperação das VMs (DR) dentro da filial. 

Considerando o ambiente informado acima, quais são os principais pontos que temos que nos preocupar para que possamos garantir que essa estrutura de backup e DR planejada seja alcançada?

Primeiro, temos que garantir que dispomos de um link seguro e com velocidade suficiente para suportar essa replicação entre matriz e filial.

Segundo, precisamos que a estrutura de servidores na filial que receberá a replicação do backup e onde faremos o DR, tenha recursos suficientes para armazenar a replica dos dados e consiga levantar os servidores em caso de precisar usar o DR.

Terceiro, escolher bem o software que vai orquestrar toda essa operação de backup e DR. Aqui na Infobusiness optamos por oferecer o Arcserve UDP, que possibilita de forma simples a implantação desse ambiente de backup e disaster recovery.

O Arcserve UDP tem toda a tecnologia para sustentar o ambiente de backup e DR, inclusive a própria Arcserve disponibiliza o serviço de DR próprio na nuvem, chamado Cloud Hybrid. Com esse recurso, podemos replicar os backups para fora da empresa, garantindo o atendimento as melhores práticas de backup.

Modalidade de backup e restore 

Nesta etapa, precisamos avaliar qual a modalidade de backup que será escolhida.

Se vai usar o modelo de backup baseado em arquivo, onde somente alguns arquivos são backupeados. Ou se vai usar o modelo de backup baseado em imagem, onde é feito um snapshot de todo o servidor.

Somente o modelo de backup baseado em imagens oferece um tempo de recuperação mais rápido, já que não é preciso fazer a reinstalação do sistema operacional, reconfiguração de serviços e outros recursos.

Também é importante avaliar a mídia onde serão armazenados os backups.

Muitas empresas ainda fazem backup em fitas, mas essa não é mais uma solução recomendada.

A fita oferece um custo por GB menor que o disco, mas o tempo de recuperação é lento e a garantia de que o restore vai ocorrer não é o mesmo que o disco. Ainda podemos usar fita para armazenamento de dados frios ou para arquivo morto, mas para backup de ambientes de produção, recomendo o uso de discos.

Também é importante já decidir para onde iremos replicar os arquivos de backup. Será replicado para uma filial ou para uma nuvem?

Lembre-se que é extremamente recomendável ter uma cópia do backup fora do seu datacenter. Esse procedimento é necessário, pois existem desastres que podem causar a destruição até do repositório de backup local, por isso precisamos ter uma cópia externa dos dados.

Garantia da recuperação dos dados

Não adianta todo o investimento em uma solução de backup e recuperação de desastres, se não temos como garantir o restore do ambiente.

A sua solução de backup precisa dispor de uma forma para que possa testar regularmente se a recuperação dos dados é possível em caso de um desastre.

No caso do Arcserve UDP, existe o recurso chamado de Assured Recovery, que pode ser utilizado para garantir a integridade do backup. 

O Assured Recovery irá criar um InstantVM da máquina, ligar a máquina, testar e desligar automaticamente, gerando relatórios de integridade de backup. 

Com isso, podemos configurar perfis de SLA, que junto ao Assured Recovery, ira disponibilizar relatórios de auditoria, onde teremos dados reais sobre a integridade do backup e se, em caso de desastre, será atendido o SLA estabelecido pelo RPO e RTO da empresa. 

Realizar testes de recuperação de desastres para garantir o funcionamento 

Assim como temos que ter testes frequentes de restore do backup, é preciso monitorar, gerenciar e efetuar testes de validação da estrutura de Disaster Recovery.

Um exemplo clássico: a empresa tem um DR de uma VM que está a 08 meses sem atualizar o Windows. É agendado a atualização e o reinicio da máquina contando que o DR entrará em ação, ligando a máquina replicada quando a máquina principal ficar off.

Só que, como a máquina replicada no DR é uma cópia exata da principal, ela também terá a pendencia de atualização e ficará off line. É preciso planejar a atualização da máquina secundária primeiro, para depois efetuar a atualização da VM principal.

Esse é somente um caso, onde ter o DR, mas não fazer a gestão e monitoramento dos recursos, pode tornar o plano de Disaster Recovery dos servidores totalmente ineficiente.

Conclusão

O que os gestores de TI devem ter em mente que fazer o backup dos servidores sem um bom planejamento e sem monitoramento, pode causar uma grande dor de cabeça.

Os principais pontos que todo gestor deve validar sobre backup e DR:

  • Eu sei quais as metas de RTO e RPO da minha empresa?
  • Eu tenho certeza que minha solução de backup e DR atual atende a minha meta de RTO e RPO?
  • Consigo fazer testes regulares de restore no backup para verificar se consigo restaurar os dados e também cumprir as metas de RTO e RPO?
  • São feitos testes frequentes no ambiente de DR para garantir a recuperação dentro do RPO e RTO desejado?
  • Meu repositório de backup e DR está protegido e replicado para fora do meu datacenter?

Se você não consegue responder essas perguntas, então precisa urgente revisar seu planejamento de backup e disaster recovery.

Equipe InfoB
Equipe InfoB