Una autopsia pública de una interrupción del servicio

Muchas cosas en la vida tienen un enfoque “conservador” comúnmente aceptado y un enfoque “arriesgado” comúnmente aceptado que debe evitarse, al menos según el sentir popular. En la inversión, por ejemplo, a menudo vemos la compra de bonos gubernamentales o municipales como de bajo riesgo y la inversión en acciones (valores corporativos) como de alto riesgo, pero las cifras estadísticas nos dicen que esto es al revés y que casi todo el mundo pierde dinero con los bonos y gana dinero con las acciones. La “sabiduría” popular, cuando se pone a prueba, resulta basarse puramente en emociones que, a su vez, se basan en conceptos erróneos, y lo más arriesgado en la inversión es utilizar la emoción para guiar las estrategias de inversión.

De manera similar, con las evaluaciones de riesgo del negocio, el enfoque común consiste en sentir una respuesta emocional ante el peligro, lo cual desencadena una reacción de pánico y hace que las personas tengan una fuerte tendencia a sobrecompensar el riesgo percibido. Vemos esto comúnmente en pequeñas empresas cuya infraestructura de TI genera muy pocos ingresos o no es muy clave para las operaciones a corto plazo, que gastan grandes sumas de dinero para protegerse contra un riesgo que solo se percibe parcialmente y que está muy mal articulado. A menudo esto llega a ser tan dramático que el proceso de mitigación se gestiona emocionalmente en lugar de intelectualmente, y con regularidad encontramos empresas que implementan malos diseños de sistemas que en realidad aumentan el riesgo en lugar de reducirlo, mientras gastan sumas de dinero muy elevadas y luego, dado que el riesgo era en su mayor parte imaginario, califican el proyecto de éxito basándose en capa tras capa de conceptos erróneos: riesgo imaginario, mitigación de riesgo imaginaria y éxito imaginario.

En el pasado reciente tuve la oportunidad de verme involucrado en un desastre absoluto para una pequeña empresa. El desastre se acercó a lo que era casi un “peor escenario posible”. No del todo, pero muy cerca. La respuesta emocional en aquel momento ante el desastre fue intensa y, una vez que el desastre estuvo en pleno desarrollo, era habitual que casi todos afirmaran y repitieran que la planificación ante desastres había sido deficiente y que el problema debería haberse evitado. Esto es muy común en cualquier situación de desastre; los seres humanos sienten que siempre debe haber alguien a quien culpar y que deberían existir escenarios de riesgo cero si hacemos bien nuestro trabajo, pero esto es completamente incorrecto.

Afortunadamente, realizamos una autopsia completa, como se debe hacer tras cualquier desastre verdadero, para determinar qué había salido mal, qué había salido bien, cómo podíamos corregir los procesos y decisiones que habían fallado y cómo podíamos mantener aquellos que nos habían protegido. Por lo general, cuando ocurre algún gran evento de sistemas, no tengo la oportunidad de hablar de ello públicamente. Pero, de vez en cuando, sí puedo. Es muy común reaccionar ante un desastre, ante cualquier desastre, y pensar “ah, si tan solo hubiéramos….”. Pero hay que examinar el desastre. Hay mucho que aprender sobre los procesos y sobre nosotros mismos.

Primero, algo de contexto. Un servidor crítico, que se ejecuta en un centro de datos empresarial, aloja varias cargas de trabajo clave que son muy importantes para varias empresas. Tiene algo más de cuatro años de antigüedad y ha estado funcionando de forma aislada durante muchos años. Los servidores más antiguos siempre resultan un poco inquietantes a medida que se acercan al final de su vida útil. Cuatro años no es ni de lejos el final de la vida útil para un servidor de clase empresarial, pero desde luego tampoco era joven.

Se trataba de un único servidor sin ningún mecanismo de conmutación por error. Las copias de seguridad se gestionaban de forma externa en un dispositivo de copia de seguridad empresarial en el mismo centro de datos. Un diseño de sistema muy sencillo

No incluiré todos los detalles internos, ya que cualquier situación como esta tiene muchas complejidades en la planificación y en la operación. Esas se dejan mejor para un proceso de autopsia interno.

Cuando el servidor falló, falló de forma espectacular. El fallo fue tan completo que no pudimos diagnosticarlo de forma remota, ni siquiera con la asistencia de los técnicos in situ del centro de datos. Incluso el proveedor del servidor fue incapaz de diagnosticar el problema. Esto nos dejó en una posición difícil: ¿cómo se afronta un servidor muerto cuando el hardware no puede repararse de forma fiable? Podíamos reemplazar unidades, podíamos reemplazar fuentes de alimentación, podíamos reemplazar la placa base. Quién sabía cuál podría ser la solución.

Al final, la decisión fue que tanto el servidor como el sistema de copia de seguridad debían trasladarse de vuelta a la oficina principal, donde podrían someterse a triaje en persona y con el máximo de recursos. Al final, el sistema acabó pudiéndose reparar y no se perdió ningún dato. La decisión de abstenerse de recurrir a la copia de seguridad se tomó porque la recuperación de los datos era más importante que la disponibilidad del sistema.

Cuando todo estuvo dicho y hecho, el desastre fue uno de los más completos que podían imaginarse sin llegar a experimentar una pérdida real de datos. La interrupción se prolongó durante muchos días y se emplearon una gran cantidad de equipos de repuesto, horas de trabajo e intentos de reparación. El proceso fue agotador, pero, una vez completado, el sistema se restauró con éxito.

La prolongada interrupción y la sensación de caos a medida que se diagnosticaban los problemas y se realizaban los intentos de reparación dieron lugar a una sensación general de fracaso. La gente empezó a decirlo y eso lleva a que la gente lo crea. Bajo una condición de respuesta de emergencia es muy fácil volverse excesivamente emocional, especialmente cuando apenas se puede dormir.

Pero cuando dimos un paso atrás y observamos el resultado final, lo que descubrimos sorprendió a casi todos: la operación de triaje y la planificación inicial del riesgo habían sido un éxito.

El caos que se produce durante un triaje a menudo hace que las cosas parezcan mucho peores de lo que realmente son. Pero nuestra gestión del triaje había sido excelente. El triaje no significa magia, y existe una fase de descubrimiento y una fase de reacción. Cuando analizamos el orden de los acontecimientos y los dispusimos en una línea de tiempo, descubrimos que habíamos actuado tan bien que casi no había ningún punto posible en el que pudiéramos haber acortado el marco temporal. Habíamos hecho buenos diagnósticos, involucrado a las partes adecuadas en el momento adecuado, puesto las piezas en movimiento logístico lo antes posible y la mayor parte de lo que parecía haber sido tiempo frenético y desperdiciado era en realidad “tiempo de relleno”, durante el cual intentábamos determinar si existían opciones adicionales o si se habían cometido errores mientras esperábamos las piezas necesarias para la reparación. Esto hizo que las cosas parecieran mucho peores de lo que realmente eran, pero todo ello constituía el conjunto correcto de acciones que se debían haber tomado.

Desde la perspectiva del triaje y la recuperación, el proceso se había desarrollado sin fallos, aunque la interrupción acabara prolongándose durante muchos días. Una vez que el desastre había ocurrido, y había ocurrido en la increíble medida en que lo hizo, la recuperación en realidad transcurrió de forma increíblemente fluida. Nada es absolutamente perfecto, pero salió extremadamente bien. La máquina funcionó tal como estaba previsto.

La parte mucho más sorprendente fue analizar el impacto del desastre. Hay dos maneras de verlo. Una es la más sensata, el enfoque “sin retrospectiva”. Aquí observamos el desastre, el costo del impacto del desastre, el costo de la mitigación, aplicamos la probabilidad de que el desastre hubiera ocurrido y determinamos si se había tomado la decisión de planificación correcta. Esto es difícil de calcular porque el factor de riesgo siempre es una cifra ajustada a ojo, pero normalmente se puede obtener una precisión suficiente para saber cuán buena fue la planificación. La segunda manera es el enfoque de la retrospectiva perfecta: ¿qué habríamos hecho para evitarlo si hubiéramos sabido que este desastre iba a ocurrir? Obviamente, es completamente injusto eliminar el factor de riesgo y ver cuánto costó el desastre en cifras brutas, porque no podemos saber qué va a salir mal y planificar únicamente para esa única posibilidad, ni gastar dinero ilimitado en algo de lo que en realidad no sabemos si ocurrirá. Las empresas a menudo cometen el error de utilizar este último cálculo y culpar a los planificadores por no haber tenido una previsión perfecta.

En este caso, estábamos razonablemente seguros de que habíamos hecho la apuesta correcta desde el principio. El sistema había estado en funcionamiento durante casi una década con cero tiempo de inactividad. El costo total del sistema había sido bajo, el costo del triaje había sido moderado y el evento había sido extremadamente improbable. Que, al considerar el factor de riesgo, hubiéramos hecho una buena planificación no sorprendió, en general, a nadie.

Lo sorprendente fue que, cuando ejecutamos los cálculos sin el factor de riesgo, ¡incluso si hubiéramos sabido que el sistema fallaría y que se produciría una interrupción prolongada, habríamos tomado la misma decisión! Esto fue francamente impactante. El costo de la interrupción prolongada fue en realidad menor que el costo del equipo, el alojamiento y la mano de obra necesarios para haber construido un sistema funcional de mitigación de riesgos; en este caso, eso habría consistido en tener un servidor totalmente redundante en el centro de datos junto al que estaba en producción. De hecho, ¡el ahorro de costos al aceptar esta interrupción prolongada había supuesto un ahorro de cerca de diez mil dólares!

Este resultó ser un caso extremo en el que la interrupción fue devastadoramente grave, difícil de predecir, imposible de reparar con rapidez y, aun así, dio lugar a un enorme ahorro de costos a largo plazo, pero la lección es importante. Hay tanta carga emocional asociada a cualquier desastre que, si no realizamos un análisis de autopsia adecuado y no trabajamos para eliminar las respuestas emocionales de nuestra toma de decisiones, a menudo nos precipitaremos hacia una pérdida financiera a gran escala o atribuiremos la culpa de forma incorrecta, incluso cuando las cosas hayan salido bien. Muchas empresas habrían examinado este desastre y habrían reaccionado gastando dramáticamente de más para evitar que el mismo evento improbable volviera a repetirse en el futuro, ¡incluso teniendo las cifras delante que les indicaban que hacerlo desperdiciaría dinero aun cuando ese evento volviera a producirse!

Hubo otras lecciones que aprender de esta interrupción. Aprendimos dónde las comunicaciones no habían sido ideales, dónde las personas adecuadas no siempre estuvieron en el lugar adecuado para la toma de decisiones, dónde las comunicaciones con el cliente no fueron lo que deberían haber sido, que el cliente no nos había informado adecuadamente de los cambios y más. Pero, en términos generales, las lecciones fueron que habíamos planificado correctamente, que nuestra operación de triaje había funcionado correctamente y que le habíamos ahorrado al cliente varios miles de dólares respecto de lo que habría parecido ser el enfoque “conservador”, y que, al realizar una buena autopsia, logramos evitar que ellos, y nosotros, reaccionáramos de forma exagerada y convirtiéramos una buena decisión en una mala de cara al futuro. Sin una autopsia, muy probablemente habríamos cambiado nuestros buenos procesos creyendo que habían sido malos.

Las lecciones que quiero transmitirle a usted, lector, son que las autopsias son un paso crítico en cualquier desastre, que el pensamiento conservador tradicional a menudo es muy arriesgado y que las reacciones emocionales ante el riesgo a menudo provocan desastres financieros mayores que los técnicos contra los que pretenden protegernos.

Etiquetadopost mortem

Más para leer.

¿Cuándo considerar la alta disponibilidad?

Planificación de la recuperación ante desastres con equipos de plataforma existentes

El efecto Parque Jurásico