Por qué reiniciamos los servidores

Una pregunta que surge con bastante regularidad es si los servidores deberían reiniciarse de forma rutinaria, por ejemplo una vez por semana, o si deberían poder funcionar durante el mayor tiempo posible para lograr el máximo “tiempo de actividad”. Para mí la respuesta es sencilla – salvo raras excepciones, los reinicios regulares son la opción más adecuada para los servidores.

Como con cualquier regla, hay casos en los que no se aplica. Por ejemplo, algunas empresas que ejecutan sistemas críticos no disponen de ningún margen para el tiempo de inactividad y deben estar disponibles las 24 horas del día, los 7 días de la semana. Obviamente, sistemas como este no pueden reiniciarse simplemente de forma rutinaria. Sin embargo, si un sistema es tan crítico que nunca puede dejar de funcionar, esta situación debería hacer saltar una alarma de que este sistema es un punto de fallo, y quizás debería iniciarse una reflexión sobre cómo gestionar el tiempo de inactividad, ya sea planificado o imprevisto.

Otra excepción es que algunos sistemas AIX necesitan un tiempo de actividad considerable, superior a unas pocas semanas, para alcanzar la máxima eficiencia, ya que el sistema se autoajusta y necesita tiempo para obtener información de uso y ajustarse en consecuencia. Esto suele limitarse a grandes servidores de bases de datos que cambian con poca frecuencia y a escenarios de uso similares que son menos comunes que en otras plataformas.

En TI a menudo veneramos el concepto de “tiempo de actividad” – cuánto tiempo puede funcionar un sistema sin necesidad de reiniciarse. Pero el “tiempo de actividad” no es un concepto que aporte valor al negocio, y TI debe tener presentes en todo momento las necesidades del negocio en lugar de centrarse en métricas artificiales. Al negocio no le preocupa cuánto tiempo ha logrado un servidor permanecer en línea sin reiniciarse – solo le importa que el servidor esté disponible y listo cuando se le necesite para el procesamiento del negocio. Estos son conceptos muy diferentes.

Para casi cualquier servidor empresarial normal, existe una franja en la que el servidor debe estar disponible para fines del negocio y una franja en la que no se le necesita. Estas franjas pueden ser diarias, semanales o mensuales, pero es raro el servidor que realmente se utiliza las veinticuatro horas del día sin excepción.

A menudo escucho a la gente afirmar que, por ejecutar el sistema operativo X en lugar del Y, ya no necesitan reiniciar, pero esto simplemente no es cierto. Hay dos razones principales para reiniciar de forma regular: verificar la capacidad del servidor para reiniciarse correctamente y aplicar parches que no pueden aplicarse sin reiniciar.

Aplicar parches es la razón por la que la mayoría de las empresas reinician. Casi todos los sistemas operativos reciben actualizaciones periódicas que requieren un reinicio para surtir efecto. Como la mayoría de los parches se publican con fines de seguridad y estabilidad, especialmente aquellos que requieren un reinicio, la importancia de aplicarlos es bastante alta. Hacer que un servidor sea innecesariamente vulnerable solo para mantener el tiempo de actividad no es prudente.

Probar la capacidad de un servidor para reiniciarse correctamente es lo que a menudo se pasa por alto. La mayoría de los servidores reciben cambios de forma regular. Los cambios pueden ser parches, nuevas aplicaciones, cambios de configuración, actualizaciones o similares. Cualquier cambio introduce un riesgo. El hecho de que un servidor esté en buen estado inmediatamente después de aplicar un cambio no significa que ni el servidor ni las aplicaciones que se ejecutan en él vayan a arrancar como se espera tras un reinicio.

Si el servidor nunca se reinicia, entonces nunca sabremos si puede reiniciarse correctamente. Con el tiempo, el número de cambios aplicados desde el último reinicio aumentará. Esto es muy peligroso. Lo que tememos es que se haya realizado un gran número de cambios, posiblemente muchos de ellos sin documentar, y que un reinicio falle entonces. En ese momento, identificar qué cambio está provocando el fallo del sistema podría ser un proceso insuperable. Ningún cambio único que revertir, ningún camino conocido hacia la recuperación. Es entonces cuando cunde el pánico. Por supuesto, una máquina que nunca se reinicia intencionadamente es más propensa a reiniciarse de forma no intencionada – lo que significa que la probabilidad de un reinicio fallido es a la vez más probable que ocurra y más probable que ocurra durante el uso activo.

Aunque los reinicios regulares no pretenden reducir la frecuencia de los reinicios fallidos – de hecho, en realidad aumentan la incidencia de fallos – el propósito es hacer que esos fallos sean fácilmente manejables desde la perspectiva de un “cambio conocido” y, lo que es más importante, controlar cuándo se producen esos reinicios para garantizar que ocurran en un momento en que el servidor está designado como disponible para mantenimiento y está pensado para ser sometido a estrés, de modo que los problemas se detecten en un momento en que puedan mitigarse sin impacto para el negocio.

He oído a muchos administradores de sistemas afirmar que evitan los reinicios de fin de semana porque no quieren quedar atrapados trabajando los domingos debido a servidores que no vuelven a arrancar tras reiniciarse. Yo mismo he sido avisado muchos domingos por la mañana por un reinicio fallido, pero cada vez que recibo esa llamada siento una sensación de alivio. Sé que acabamos de detectar un problema en un momento en que el negocio no se ve afectado económicamente. Si ese servidor no se hubiera reiniciado fuera del horario laboral, podría no haberse descubierto que era “inarrancable” hasta que hubiera fallado durante el horario laboral activo y hubiera causado una pérdida de ingresos.

Gracias a los reinicios regulares de fin de semana, podemos detectar de forma segura desastres inminentes y, gracias a saber que solo tenemos los cambios de una semana que investigar, somos capaces de forma rutinaria de solucionar los problemas con generalmente poco esfuerzo y con gran confianza de que comprendemos qué cambios se habían realizado antes del fallo.

Los reinicios regulares consisten en proteger al negocio de interrupciones y tiempos de inactividad que pueden mitigarse mediante procesos muy sencillos y fiables.

Etiquetadopatterns reboot risk server system administration

Más para leer.

¿Cuándo considerar la alta disponibilidad?

Repensar las versiones con soporte a largo plazo

¡Eso no se puede virtualizar!