¿Realmente necesita redundancia? El verdadero costo del tiempo de inactividad

Tiempo de inactividad – esa es una expresión que nadie quiere escuchar. Infunde temor en el corazón de las empresas, los directivos y, especialmente, el personal de TI. El tiempo de inactividad cuesta dinero y genera frustración.

Dado que el tiempo de inactividad desencadena una reacción emocional, las empresas a menudo terminan reaccionando ante él de forma distinta a como lo harían con los factores empresariales tradicionales. Este enfoque emocional provoca que las empresas, especialmente las más pequeñas que con frecuencia carecen de controles financieros racionales, traten el tiempo de inactividad como algo mucho peor de lo que realmente es. No es raro descubrir que las empresas más pequeñas en realidad se han causado a sí mismas más daño financiero al reaccionar ante el temor a un posible tiempo de inactividad del que el temido tiempo de inactividad habría provocado si efectivamente hubiera ocurrido. Se trata de una peligrosa reacción exagerada.

El primer paso es determinar el costo del tiempo de inactividad. En TI a menudo trabajamos con sistemas bastante complejos y el tiempo de inactividad se presenta en una variedad de formas, como la pérdida de acceso, la pérdida de rendimiento o la pérdida total de uno o varios sistemas. Determinar cada tipo de tiempo de inactividad y sus costos asociados puede resultar bastante complejo, pero una visión de alto nivel suele bastar para elaborar presupuestos racionales o, cuando menos, constituye un buen punto de partida en el camino hacia la comprensión de los riesgos empresariales que implica el tiempo de inactividad. Tenga presente que, al igual que gastar demasiado para evitar el tiempo de inactividad es perjudicial, también lo es gastar demasiado para calcular sus costos. No dedique tanto tiempo y recursos a determinar si va a perder dinero que habría sido preferible simplemente perderlo. Cuidado con el alto costo de la toma de decisiones.

Podemos comenzar considerando únicamente la pérdida total del sistema. ¿Cuál es para usted el costo del tiempo de inactividad organizacional? Es decir, si tuviera que detener toda la actividad empresarial durante una hora o un día, ¿cuánto dinero se pierde? En algunos casos las pérdidas podrían ser drásticas, como en el caso de un hospital, donde un día de inactividad provocaría una pérdida de confianza y de la futura base de clientes, y potencialmente desembocaría en demandas. Pero en muchos casos un día de inactividad podría tener un impacto financiero insignificante: muchas empresas podrían sencillamente declarar el día como festivo, dejar que su personal descanse durante la jornada y hacer que la gente trabaje un poco más durante los días siguientes para recuperar el trabajo acumulado del día perdido. Todo se reduce a cómo opera y cómo puede operar su empresa, y a qué tan bien preparada está para mitigar el tiempo perdido. Muchas empresas se limitan a observar las cifras de ingresos diarios para determinar los ingresos perdidos, pero esto puede ser tremendamente engañoso.

Una vez que tenemos una cifra aproximada del costo del tiempo de inactividad, podemos considerar entonces el riesgo de inactividad. Esto es muy difícil de evaluar, ya que los datos fiables sobre la confiabilidad de los sistemas de TI son prácticamente inexistentes y los sistemas de cada organización son tan singulares que los datos del sector resultan casi inútiles. Aquí nos vemos obligados a depender del personal de TI para que proporcione una visión general de los riesgos y, con suerte, una evaluación fiable de la probabilidad de cada riesgo individual. Por ejemplo, en cifras redondas, si tuviéramos una aplicación de línea de negocio que se ejecutara en un servidor con un único disco duro, esperaríamos que en algún momento de los próximos cinco a diez años se produjera un tiempo de inactividad asociado a la pérdida de ese disco. Si tenemos ese mismo servidor con discos de intercambio en caliente en un arreglo en espejo, entonces la probabilidad de tiempo de inactividad asociada a ese sistema de almacenamiento, incluso a lo largo de diez años, es bastante pequeña. Esto no significa que sea improbable que un disco falle, lo es, sino que es probable que el sistema no se vea afectado hasta que se restablezca la redundancia, sin que los usuarios finales noten que ha ocurrido algo.

Nuestra última herramienta de estimación aproximada consiste en aplicar el horario laboral correspondiente. Muchas empresas no operan 24×7; algunas sí, por supuesto, pero la mayoría no. ¿Es la pérdida de una aplicación de línea de negocio a las seis de la tarde equivalente a la pérdida de esa aplicación a las diez de la mañana? ¿Y el fin de semana? ¿La está usando la gente de forma productiva a las tres de la tarde de un viernes o perderla apenas costaría nada y haría felices a los empleados al ganar una hora o dos extra de su fin de semana? ¿Pueden modificarse los horarios en caso de una pérdida cerca de la hora del almuerzo? Estos factores, aunque en apariencia triviales, pueden ser significativos. Si el tiempo de inactividad se limita a solo dos o cuatro horas, entonces muchas empresas pueden mitigar casi todo el impacto financiero simplemente pidiendo a los empleados que tengan un poco de flexibilidad en sus horarios para adaptarse a la interrupción, ya sea almorzando antes o saliendo del trabajo temprano un día y trabajando una hora extra al día siguiente.

Ahora que tenemos estos factores – el costo del tiempo de inactividad, la capacidad de mitigar su impacto en función de la duración y los riesgos de los eventos de interrupción – podemos comenzar a trazar un panorama de cómo es probable que se manifieste un evento de inactividad. A partir de esto podemos empezar a deducir cuánto dinero valdría la pena invertir para reducir el riesgo de un evento así. Para algunas empresas esta cifra será extremadamente alta y para otras será sorprendentemente baja. Este ejercicio puede revelar muchísimo sobre cómo funciona una empresa, algo que normalmente quizá no resulte tan visible.

Es importante señalar en este punto que lo que estamos analizando aquí es una pérdida de disponibilidad de los sistemas, no una pérdida de datos. Estamos suponiendo que se realizan buenas copias de seguridad y que esas copias no están comprometidas. La redundancia y el tiempo de inactividad no son temas relacionados con la pérdida de datos, solo con la pérdida de disponibilidad. Los escenarios de pérdida de datos deben tratarse con igual o mayor diligencia, pero constituyen un tema aparte. Es raro que una empresa pueda sobrevivir a una pérdida catastrófica de datos, pero es común experimentar y sobrevivir con facilidad incluso a un tiempo de inactividad considerable.

Existen múltiples maneras de evitar el tiempo de inactividad; la redundancia es muy visible y se trata casi como una palabra de moda, por lo que recibe mucha atención, pero también existen otros medios. Un buen diseño de sistemas es importante; evitar la complejidad de los sistemas puede reducir en gran medida el tiempo de inactividad simplemente al eliminar puntos de riesgo y fragilidad innecesarios. Utilizar hardware y software de calidad también es importante, ya que el hardware de gama baja que es redundante a menudo fallará con la misma frecuencia que el hardware de clase empresarial no redundante. Contar con una cadena de suministro rápida de piezas de repuesto puede ser un factor significativo, a menudo en forma de contratos de respuesta de cuatro horas con el proveedor de hardware para la reposición de piezas. Esta lista continúa. En lo que nos centraremos es en la redundancia, que es donde tenemos más probabilidades de gastar de más cuando nos enfrentamos al temor al tiempo de inactividad.

Ahora que conocemos los costos de no contar con una redundancia adecuada, podemos comparar este costo potencial con el costo muy real e inicial de proporcionar dicha redundancia. Algunos elementos, como los discos duros, tienen una probabilidad muy alta de fallar y son relativamente fáciles y rentables de hacer redundantes, tomando un riesgo significativo y trivializándolo. Estos suelen ser un primer punto de atención. Pero hay muchas áreas de redundancia que considerar, como las fuentes de alimentación, el hardware de red, las conexiones a Internet y sistemas enteros, que a menudo se hacen redundantes mediante modernas técnicas de virtualización que ofrecen nuevas vías de redundancia antes inaccesibles para muchas empresas pequeñas.

Los nuevos tipos de redundancia, especialmente los que se han hecho posibles gracias a la virtualización, son a menudo un punto en el que las empresas se ven tentadas a gastar de más, quizá de forma drástica, en comparación con los riesgos del tiempo de inactividad. Peor aún, en el afán de adquirir las últimas modas en redundancia, las empresas a menudo implementan estas técnicas de forma incorrecta e introducen en realidad un mayor riesgo y una mayor probabilidad de inactividad en comparación con no haber hecho nada en absoluto. Cada vez es más común oír hablar de empresas que gastan decenas o incluso cientos de miles de dólares en un intento de mitigar una pérdida monetaria por inactividad de tan solo unos pocos miles de dólares, para luego fracasar en ese intento y terminar aumentando su riesgo de todos modos.

Al evaluar el costo de la mitigación es fundamental recordar que la mitigación es un gasto garantizado, mientras que el riesgo es solo un riesgo. Algo muy parecido al seguro del automóvil, donde se paga una pequeña cuota mensual garantizada con el fin de protegerse de un gasto enorme e imprevisto. La teoría de la mitigación de riesgos consiste en gastar una cantidad de dinero comparativamente pequeña ahora con el fin de reducir el riesgo de un gran gasto más adelante, pero si el costo de la mitigación se vuelve demasiado alto, entonces resulta mejor simplemente aceptar los riesgos.

Los sistemas pueden evaluarse individualmente, por supuesto. Mantener una presencia web y un sistema telefónico en funcionamiento en todo momento es mucho más importante que un sistema de correo electrónico, donde es improbable que incluso horas de inactividad sean detectables por los clientes externos. Pagar únicamente para proteger aquellos sistemas en los que el costo del tiempo de inactividad es significativo es una estrategia importante.

No se sorprenda si lo que descubre es que, más allá de cierta redundancia muy básica (como los discos duros en espejo), un diseño de red sencillo con buenas copias de seguridad y planes de restauración, junto con un buen contrato de soporte de hardware, es todo lo que se necesita para la mayoría, si no para la totalidad, de sus sistemas. Al reducir la complejidad de sus sistemas, los hace naturalmente más estables y fáciles de administrar, reduciendo aún más el costo de su infraestructura de TI.

Etiquetadocost analysis downtime redundancy reliability risk uptime

Más para leer.

El contrato social de las ventas

¿Cuándo considerar la alta disponibilidad?

Repensar las versiones con soporte a largo plazo