La redundancia
Con ella podemos tener los datos replicados en una o más ubicaciones. Los niveles generales de redundancia que ofrecen las nubes públicas son:
- Local: Suele venir por defecto en casi todos los servicios. Se guardan varias copias dentro del mismo datacenter pero en distintas cabinas de almacenamiento
- Zonal: Se guardan varias copias en distintos datacenters de una zona concreta. La distancia entre estos datacenters suele estar entre 20-30 kilómetros.
- Regional: Se guardan varias copias en distintos datacenters de una región. La distancia entre datacenters aquí es mayor. Por ejemplo, si hablásemos de España podríamos decir que tienes una copia en Madrid y otra en Barcelona
- Geográfica: Se guardan varias copias en distintos datacenters de distintas regiones. Por ejemplo, podríamos tener una copia en Madrid (España) y otra en Ámsterdam (Países Bajos)
A nivel costes la Local es más económica y la Geográfica es más cara. Algunas nubes permiten combinación entre ellas.
La estrategia de Disaster Recovery
Podemos aplicar un largo abanico de estrategias de DR (Disaster Recovery), en las que podemos elegir si queremos una estrategia baja en costes (normalmente con carencias), o una estrategia resiliente y compleja (más cara). Debemos valorarlo en cada caso, por la tipología del servicio, el cumplimiento de SLAs (acuerdos de nivel de servicio) comprometidos o por la importancia de los datos a almacenarse.
No debemos confundir DR con HA (Alta disponibilidad). En DR el cómputo está levantado solo en el datacenter principal, y lo que se replica es el almacenamiento fuera de ese datancenter, ya sea en otra zona o en otra región.
La más económica sería un DR a nivel zonal, es decir, solo tendríamos respaldo si el datacenter principal cae, y se empezaría a prestar servicio desde el datacenter secundario, y la más cara seria geo-redundada.
En el DR deberemos tener en cuenta las exigencias de nuestro servicio en cuando a RTO y RPO:
- RTO (Restore Time Objective): Es el tiempo máximo que el servicio puede estar caído sin causar un impacto significativo en la organización. Por ejemplo, si el RTO está establecido a 1 hora, es el tiempo en la que la empresa puede volver a ponerse a funcionar sin grandes pérdidas.
- RPO (Restore Point Objective): Es la cantidad máxima de datos que una empresa podría perder ante un evento catastrófico, sin tener un daño significativo. Por ejemplo, si el RPO son 2 horas, significa que la empresa podría permitirse perder los datos de las últimas 2 horas, sin impacto reseñable.
Multicloud
Siempre es mencionada, ya que consideramos que es importante tanto en la operación diaria como en este tipo de estrategias. El tener redundancia entre proveedores de nube, nos incrementa mucho más la resiliencia para los servicios de nuestra empresa. Se pueden combinar estrategias de DR a nivel multicloud, aunque de momento estas técnicas tienen un gran desafío que es la orquestación entre proveedores para realizar los failovers y failbacks.
Conclusión
Actualmente ningún servicio asegura el 100% de disponibilidad. Sin embargo, está en nuestra mano el aumentar significativamente ese porcentaje, siempre haciendo valoración económica y de esfuerzo cuando sea necesario para el servicio que prestemos.







