Cálculo de SLA y cómo mitigar impactos

Author picture Por alfonso.cantos / 355 views / 2024-03-14
SLA

A través de un enfoque esquemático y simplificado, este artículo demuestra cómo la introducción de redundancia, evaluando y eligiendo alternativas para las dependencias críticas, no solo puede mejorar significativamente la disponibilidad del servicio sino también transformar las tensiones en reuniones en conversaciones constructivas sobre mejoras y estrategias a futuro. Al final, la meta es clara: convertir los puntos de fallo en oportunidades de fortalecimiento, asegurando que las aplicaciones de nuestros clientes permanezcan resilientes frente a las adversidades, reduciendo la posibilidad de que una sola falla tenga el poder de interrumpir operaciones críticas. Este enfoque no solo mejora la percepción del valor y la fiabilidad de nuestros servicios sino que también establece una plataforma para discusiones más informadas y menos cargadas emocionalmente con nuestros stakeholders. 

Una vez que has calculado la disponibilidad combinada de tu servicio en función de tus dependencias actuales, incorporar una alternativa para una de esas dependencias puede mejorar el SLA de tu servicio de varias maneras. Aquí te explico cómo calcular el impacto y mejorar tu SLA con una alternativa:

El <i>SLA</i> de tu aplicativo/servicio depende del <i>SLA</i> de las dependencias que actúen en un momento dado
El SLA de tu aplicativo/servicio depende del SLA de las dependencias que actúen en un momento dado

1. Evalúa la alternativa:

  • Disponibilidad: Considera la disponibilidad prometida por la alternativa. Si es mayor que la de tu dependencia actual, esto puede aumentar directamente la disponibilidad combinada de tu servicio.
  • Rendimiento: Evalúa el rendimiento en términos de latencia y tasa de error. Una mejora en estos aspectos puede incrementar la calidad de tu servicio.

2. Cálculo de la disponibilidad mejorada:

Para simplificar, supongamos que tienes dos dependencias, A y B, con disponibilidades de 99.9% y 99.95%, respectivamente, y estás considerando una alternativa para A con una disponibilidad de 99.99%. Puedes calcular la disponibilidad combinada de tu servicio utilizando ambas configuraciones para ver cuál es superior.

3. Considera la redundancia:

Introducir una alternativa no solo se trata de reemplazar una dependencia por otra con mejor SLA. También puedes usar ambas en paralelo para crear redundancia, lo que puede mejorar significativamente la disponibilidad y la robustez de tu servicio.

  • Redundancia pasiva: Tener una alternativa en espera que pueda tomar el relevo en caso de fallo de la dependencia principal.
  • Redundancia activa: Utilizar ambas dependencias en paralelo, distribuyendo las solicitudes entre ellas. Esto puede mejorar la disponibilidad general, ya que la probabilidad de que ambas dependencias fallen al mismo tiempo es menor.

4. Calcula con redundancia:

Si decides utilizar ambas dependencias en paralelo (A y su alternativa) para una redundancia activa, la disponibilidad combinada puede calcularse considerando la probabilidad de fallo de ambas. Por ejemplo, si A y su alternativa pueden fallar de manera independiente, la disponibilidad combinada se mejora aún más.

5. Impacto en el SLA de tu servicio:

  • Mejora directa: Si la alternativa tiene un SLA superior, su inclusión debería mejorar directamente el SLA de tu servicio.
  • Redundancia y tolerancia a fallos: La redundancia aumenta la tolerancia a fallos de tu servicio, lo cual puede permitirte ofrecer un SLA más alto a tus clientes.

6. Monitoreo y ajuste:

Después de implementar cualquier cambio, es crucial monitorear el impacto en el rendimiento real de tu servicio. Esto puede requerir ajustes en la configuración o incluso reconsiderar la combinación de dependencias para optimizar aún más el SLA.

Incorporar una alternativa a una de tus dependencias ofrece una gran oportunidad para mejorar el SLA de tu servicio. La clave está en evaluar cuidadosamente tanto las métricas de SLA como la capacidad de implementar redundancia de manera efectiva.

Ejemplo

Con los SLAs dados para los servicios A del 99%, B del 95%, y la alternativa C del 99% para B, tu SLA sería de aproximadamente:

  • Sin usar la alternativa al servicio B (solo A y B): 94.05%
  • Con redundancia, utilizando tanto B como su alternativa C junto con A: 98.95%

Esto muestra cómo la incorporación de una alternativa con mayor disponibilidad puede mejorar significativamente el SLA de tu servicio global.