ICM / otros / Caso práctico: Disaster Recovery con dos clústers

Caso práctico: Disaster Recovery con dos clústers

23 julio 2020 | Lluis Pons

En un artículo anterior explicamos como crear un plan de Disaster Recovery con dos clústers de Nutanix. Hoy nos centraremos en cómo se realizan las operaciones para activar nuestro clúster secundario, ya sea con tareas planificadas o no, y cómo devolver al estado original de un clúster primario en caso de desastre.

Una cosa importante que tener en cuenta en un Disaster Recovery Plan con dos clústers, es que las operaciones de failover o failback se crean automáticamente en las máquinas virtuales y los grupos de volúmenes en el otro sitio. Pero los grupos de volúmenes se desconectan de los iniciadores iSCSI a los que estaban conectados antes del evento.

Después de cada operación se deben conectar manualmente los grupos de volúmenes a los iniciadores iSCSI y redescubrir los targets iSCSI desde las máquinas virtuales. Y para ello, si tenemos escenarios de este estilo, es obligatorio leer la documentación que corresponda a la versión que tengamos.

Una vez comentado esta característica, os presentamos los tres puntos que vamos a tratar, para nuestro caso práctico de Disaster Recovery Plan con dos clústers: 

-Realizar una conmutación planificada
-Ejecutar una conmutación no planificada
-Desarrollar un Failback

Realización de una conmutación planificada

Normalmente es la operación más común. Ya sea por mantenimiento o la expansión o prueba de Disaster Recovery del clúster primario, puede ser conveniente mover un Protection Domain al clúster secundario como una tarea planificada.

Para migrar un Protection domain a un clúster secundario seguiremos los siguientes pasos:

Procedimiento

1.Iniciaremos la sesión en la consola web para el sitio primario.
2.Iremos a la pestaña Async DR de la vista de tabla de Data Protection.

plan de Disaster Recovery con dos clústers de Nutanix

 

3. Seleccionaremos el dominio de protección y haremos clic en Migrate. Seguidamente aparecerá el cuadro de diálogo, y allí seleccionaremos el clúster donde queremos migrar el Protection Domain.

migrate protection domain

4. Cuando las entradas de campo sean todas correctas, haremos clic en el botón Guardar.

¿Para qué sirve una migración de un Protection Domain?

  1. Crea y replica una instantánea del Protection Domain.

  2. Apaga las máquinas virtuales en el clúster primario. Nota: El servicio de protección de datos espera 5 minutos para que la máquina virtual se apague. Si la VM no se apaga en 5 minutos, se apaga automáticamente.

  3. Repite el proceso del número 1 otra instantánea del dominio de protección.

  4. Anula el registro de todas las máquinas virtuales y grupos de volúmenes y elimina sus archivos asociados.

  5. Marca el dominio de protección del sitio local como inactivo.

  6. Restaura todos los archivos de VM y grupos de volúmenes de la última instantánea y los registra con los mismos UUID en el clúster secundario.

  7. Verifica el dominio de protección del sitio remoto como activo.

Las máquinas virtuales en el clúster secundario no se encienden automáticamente. Esto permite resolver cualquier problema potencial de configuración de red, como conflictos de dirección IP, antes de encender las máquinas virtuales. Además, se deben volver a conectar manualmente los grupos de volúmenes que se vieron afectado, si es el caso.

Proceso de una conmutación NO planificada en un Disaster Recovery plan con dos clústers

Cuando ocurre un desastre en nuestro clúster primario, haremos lo siguiente para activar el clúster secundario:

Procedimiento

  1. Iniciaremos sesión en la consola web el clúster secundario.
  2. Iremos a la pestaña Async DR en la vista Data Protection.
  3. Seleccionaremos el dominio y haremos clic en el botón Activar. Aparece una ventana emergente para confirmar.
plan de Disaster Recovery con dos clústers de Nutanix

 

domain protection

Funciones

Esta operación hace lo siguiente:

  1. Restaura todos los archivos de VM y grupos de volúmenes de la última instantánea totalmente replicada. El proceso primero separa los grupos de volúmenes que están incluidos en el Dominio de protección o adjuntos a las máquinas virtuales en el Dominio de protección.

  2. Registra las máquinas virtuales y los grupos de volúmenes en el clúster secundario.

  3. Marca el Protection Domain como activo.

Como en el caso anterior, las máquinas virtuales en el clúster secundario no se encienden automáticamente. Esto permite resolver cualquier problema potencial de configuración de red, cómo por ejemplo conflictos de dirección IP, antes de encender las máquinas virtuales. Además, se deben volver a conectar manualmente los grupos de volúmenes que se vieron afectados, si es el caso.

Desarrollo de una operación de Failback

Si se produce un desastre en nuestro clúster primario, todos los Protection Domains conmutan al clúster secundario. Después de que se restaure el clúster primario, podemos devolver los Protection Domain al origen.

Para realizar una operación de FailBack, debemos poner en marcha nuestro clúster primario. Para ello, seguiremos los siguientes pasos:

  1. Todos los hosts están caídos. Iniciaremos todos los hosts del sitio primario.

  2. Las CVMs se reinician automáticamente y la configuración del clúster se establece nuevamente.

  3. Todos los Protection Domains que estaban activos antes de que ocurriera el desastre se recrean en un estado activo. Sin embargo, no se pueden replicar los Protection Domains, ya que todavía están activos en el clúster secundario.

  4. Las máquinas virtuales se encenderán.

  5. Iniciaremos una sesión en consola de una CVM del cluster primario y ejecutaremos nCLI oculto con el siguiente comando: nutanix@cvm:~$ ncli -h true

  6. Desactivaremos y eliminaremos las máquinas virtuales del cluster primario del Protection Domain, que corresponda devolver a su estado original en nuestro cluster primario o principal. Lo haremos mediante el siguiente comando: ncli> pd deactivate-and-destroy-vms name=protection_domain_name
    Importante: Ejecutaremos este comando solo cuando el Protection Domain  esté activo en el clúster secundario, porque este comando elimina las máquinas virtuales del clúster primario.

  7. Cambiaremos el nombre protection_domain_name con el nombre que corresponda desactivar y destruir. También debemos apagar todas las máquinas virtuales en el sitio primario antes de ejecutar el comando.
    Importante: Este comando es peligroso y debemos poner los 5 sentidos. No debe utilizarse para ningún otro propósito que no sea el tema que estamos tratando. De lo contrario, eliminará las máquinas virtuales y se producirá la pérdida de datos.

  8. Ahora iniciaremos sesión en el clúster secundario y en Data Protection y Async DR seleccionaremos el Protection Domain y haremos clic en Migrate para migrar el Protection Domain al clúster primario. Tal y cómo hemos explicado en los apartados anteriores.

 

Recordemos, como en los casos anteriores, que las máquinas virtuales en el clúster primario no se encienden automáticamente. Además, se deben de volver a conectar manualmente los grupos de volúmenes que se vieron afectados si es el caso. Esta operación la deberíamos repetir para cada Protection Domain que tengamos definido.

Y así, finalmente, es cómo se realiza un Disaster Recovery Plan con dos clústers.