Hot Spare o un caos total — SMB IT Journal

Un enfoque común para añadir una capa de seguridad a RAID consiste en disponer de una o varias unidades de repuesto para minimizar el tiempo de reemplazo de una unidad averiada. La forma más extrema de esto se conoce como tener un “hot spare” – una unidad de repuesto que está físicamente en el arreglo pero sin utilizar hasta que el arreglo detecta el fallo de una unidad, momento en el cual el sistema deshabilita automáticamente la unidad averiada y habilita el hot spare, igual que si una persona acabara de extraer una unidad del arreglo e insertar la otra, permitiendo que comience lo antes posible una operación de resilvering (una reconstrucción del arreglo). Esto puede reducir el tiempo necesario para intercambiar una nueva unidad de horas o días a segundos y, en teoría, puede proporcionar un incremento extremo de la seguridad.

En primer lugar, me gustaría abordar lo que personalmente considero un error en las convenciones de nomenclatura. Lo que llamamos un hot spare debería, en mi opinión, llamarse en realidad un warm spare, porque está ahí listo para funcionar pero no contiene los datos necesarios para usarse de inmediato. Una unidad de repuesto almacenada fuera del chasis, una que requiere que una persona intervenga e intercambie las unidades manualmente, sería un cold spare. Para ser verdaderamente un hot spare, una unidad debería estar llena de datos y, por lo tanto, sería un miembro participante del arreglo RAID en alguna medida. Red Hat tiene un buen artículo sobre cómo se aplica esta terminología a los sitios de recuperación ante desastres como referencia. Esta diferenciación es importante porque lo que llamamos un hot spare no contiene ya datos y no entra inmediatamente a reemplazar la unidad averiada, sino que entra para comenzar de inmediato el proceso de restaurar la unidad perdida – una diferenciación crítica.

Para mantener los conceptos claros, de aquí en adelante me referiré a lo que los fabricantes llaman hot spares como “warm spares.” Esto tendrá sentido en breve.

Hay dos preocupaciones principales con los warm spares. La primera es la naturaleza ineficaz del warm spare en la mayoría de los casos de uso, y la segunda es el riesgo de “destrucción automatizada del arreglo.”

La mayoría de las personas aborda el concepto del warm spare como un medio para mitigar el alto riesgo de fallo de una segunda unidad en un arreglo RAID 5 de paridad. Los arreglos RAID 5 protegen únicamente contra el fallo de un solo disco dentro del arreglo. Una vez que ha fallado un solo disco, el arreglo queda sin ninguna forma de paridad y cualquier fallo adicional de una unidad resulta en la pérdida total del arreglo. Se elige RAID 5 porque tiene un costo muy bajo para la capacidad dada y sacrifica fiabilidad con el fin de lograr esta rentabilidad. Dado que RAID 5 es, por lo tanto, arriesgado en comparación con otras opciones RAID, como RAID 6 o RAID 10, es común implementar un warm spare para minimizar el tiempo que el arreglo permanece en estado degradado, permitiendo que el arreglo comience a resilverarse a sí mismo lo más rápido posible.

Así que la conclusión más relevante aquí es que los warm spares se utilizan generalmente como un amortiguador frente al uso de tipos de arreglo RAID menos fiables como medida de ahorro de costos. Los warm spares son muchísimo más comunes en arreglos RAID 5, seguidos de los arreglos RAID 6. Ambos se eligen por encima de RAID 10 debido al costo por capacidad, no por fiabilidad o rendimiento. Hay un caso en el que la idea del warm spare realmente tiene sentido para añadir fiabilidad, y es en RAID 10 con un warm spare, pero llegaremos a ello. Fuera de ese escenario, considero que los warm spares tienen poco sentido en el mundo real.

Comenzaremos examinando RAID 1 con un warm spare. RAID 1 consiste en dos unidades, o más, en un espejo. Añadir un warm spare es agradable en el sentido de que si una de las parejas del espejo muere, el warm spare comenzará de inmediato a reflejar la unidad restante y volverás a estar protegido en poco tiempo. Eso es maravilloso. Salvo por un pequeño defecto: en lugar de usar un warm spare, esa misma unidad podría haberse añadido al arreglo RAID 1 desde el principio, donde habría sido un tercer espejo. En esta capacidad de tercer espejo, la unidad habría contribuido al rendimiento general del arreglo, ofreciendo un aumento de casi el cincuenta por ciento en el rendimiento de lectura, manteniéndose constante el rendimiento de escritura y proporcionando protección instantánea en caso de fallo de una unidad en lugar de la protección “tan pronto como se vuelva a reflejar.” Básicamente, habría sido un verdadero “hot spare” en lugar de un warm spare. Así que sin gastar ni un centavo más, el sistema habría tenido mejor rendimiento del arreglo de unidades y mejor fiabilidad simplemente por tener la unidad adicional en una capacidad activa “dentro del arreglo” en lugar de estar templada e inactiva esperando a que ocurra un desastre.

Con RAID 5 vemos una advertencia aún más dramática contra el concepto del warm spare, justo donde es más común que en cualquier otro lugar. RAID 5 es un RAID de paridad simple con la capacidad de reconstruir, utilizando la paridad, cualquier unidad del arreglo que falle. Aquí es donde comienzan los verdaderos problemas. A diferencia de RAID 1, donde una operación de re-reflejado puede ser bastante rápida, un resilvering (reconstrucción) de RAID 5 tiene el potencial de tardar bastante tiempo. El warm spare no ayudará a proteger el arreglo hasta que este proceso de resilvering se complete con éxito – esto suele ser muchas horas y fácilmente puede ser días y posiblemente semanas o meses dependiendo del tamaño del arreglo y de lo ocupado que esté. Si tomáramos esa misma unidad warm spare y en su lugar la asignáramos a ser un miembro del arreglo con una franja de paridad adicional, lograríamos RAID 6. El mismo conjunto de unidades que tenemos para RAID 5 más el warm spare crearía un arreglo RAID 6 de exactamente la misma capacidad. De nuevo, como en el ejemplo de RAID 1 anterior, esto sería muy parecido a tener un hot spare, donde la unidad participa en el arreglo con datos en vivo en lugar de estar inactiva esperando a que otra unidad falle antes de entrar en acción para comenzar el proceso de tomar el relevo. En esta capacidad, el arreglo se degrada a un equivalente de RAID 5 en caso de fallo, pero sin ningún tiempo de reconstrucción, de modo que la unidad adicional es útil de inmediato en lugar de solo después de un posible proceso de resilvering muy prolongado. Así que por el mismo dinero, la misma capacidad, la elección de configurar las unidades en RAID 6 en lugar de RAID 5 más warm spare es una victoria absoluta.

Podemos continuar este ejemplo con RAID 6 más warm spare. Este es un poco menos fácil de definir porque en la mayoría de los sistemas RAID, salvo el algo poco común RAIDZ3 de ZFS, no hay disponible un sistema de paridad triple un paso por encima de RAID 6 (imagina que existiera un RAID 7, por ejemplo). Si lo hubiera, el mismo argumento que se hizo para RAID 5 más warm spare se aplicaría a RAID 6 más warm spare. En la mayoría de los casos, RAID 6 con un warm spare debe justificarse frente a un arreglo RAID 10. RAID 10 tiene mejor rendimiento y es mucho más fiable que un arreglo RAID 6, pero generalmente se elige RAID 6 para ahorrar dinero en comparación con RAID 10. Pero para compensar la fragilidad de RAID 6, a veces se emplean warm spares. En algunos casos, como un pequeño arreglo RAID 6 de cinco discos con un warm spare, esto es, dólar por dólar, equivalente a un arreglo RAID 10 de seis discos sin un warm spare. En arreglos más grandes, el beneficio de costo de RAID 6 sí se hace evidente, pero cuanto mayor es el ahorro de costos, mayor es el diferencial de riesgo, ya que los sistemas RAID de paridad aumentan el riesgo con el tamaño del arreglo mucho más rápidamente que los sistemas RAID basados en espejos como RAID 10. Cualquier dinero que se ahorre hoy se hace a riesgo de una interrupción o pérdida de datos mañana.

Donde un warm spare entra en juego de forma eficaz es en un arreglo RAID 10, donde una reconstrucción con warm spare es una reconstrucción de espejo, como en RAID 1, que no conlleva riesgos de paridad, y donde no hay un sistema RAID que sea una extensión lógica por encima de RAID 10 del cual estemos intentando ahorrar dinero optando por un sistema más frágil. Aquí, añadir un warm spare puede tener sentido para arreglos críticos, porque no existe una forma más rentable de obtener la misma fiabilidad adicional. Sin embargo, RAID 10 es tan fiable sin un warm spare que cualquier organización que contemple RAID 5 o RAID 6 con un warm spare se detendría lógicamente en un simple RAID 10, habiendo superado ya la fiabilidad por la que estaba considerando conformarse anteriormente. Así que solo las organizaciones que no estén considerando esos sistemas más frágiles y que busquen la opción más robusta posible recurrirían lógicamente a RAID 10 más warm spare como su solución.

Solo por precisión técnica, RAID 10 puede ampliarse para obtener mejor rendimiento de lectura y una mejora dramática en la fiabilidad (pero con un incremento de costo del cincuenta por ciento) pasando a espejos RAID 1 de tres discos en su franja RAID 0 en lugar de los espejos RAID 1 estándar de dos discos, tal como mostramos en nuestro ejemplo de RAID 1. Este es un nivel de fiabilidad que rara vez se busca en el mundo real, pero puede existir y es una opción. Normalmente esto se ve limitado por las restricciones en el número de unidades en los chasis físicos de los arreglos, así como por competir desfavorablemente frente a la construcción de un arreglo RAID 10 secundario completamente separado en un chasis diferente y luego reflejarlos a un alto nivel, creando efectivamente RAID 101 – que es el resultado efectivo de los clústeres de arreglos de almacenamiento de gama alta comunes hoy en día.

Nuestra segunda preocupación es la de la “destrucción automatizada del arreglo.” Esto se aplica únicamente a los escenarios de RAID de paridad de RAID 5 y RAID 6 (o los raros RAID 2, RAID 3, RAID 4 y RAIDZ3). Con el concepto del warm spare, la idea es que cuando una unidad falla, el warm spare es intercambiado automática e instantáneamente por el controlador del arreglo y el proceso de resilvering del arreglo comienza de inmediato. Si el resilvering fuera un proceso completamente fiable, esto sería obviamente muy bien recibido. La realidad es, lamentablemente, bastante diferente.

Durante un proceso de resilvering, un arreglo RAID de paridad corre el riesgo de que aparezcan Errores de Lectura Irrecuperables (UREs). Si ocurre un URE durante un resilvering de RAID de paridad simple (es decir, RAID 2 – 5), entonces el proceso de resilvering falla y el arreglo se pierde por completo. Esto es fundamental de entender porque no ha fallado ninguna unidad adicional. Así que si el warm spare no hubiera estado presente, el resilvering no se habría iniciado y los datos seguirían intactos y disponibles – solo que no tan rápidamente como de costumbre y con el pequeño riesgo de un fallo de una segunda unidad. Las tasas de URE son muy altas con las grandes unidades de hoy en día y, con arreglos grandes, los riesgos pueden llegar a ser tan altos como para pasar de “posible” a “esperado” durante una operación de resilvering estándar.

Así que en muchos casos el propio warm spare podría en realidad ser el desencadenante de la pérdida de datos en lugar del salvador de los datos como se espera. Un arreglo que habría sobrevivido podría quedar destruido por el proceso de resilvering antes de que la persona que lo gestiona sea siquiera alertada de que la primera unidad ha fallado. Si hubiera intervenido una persona, podría haber, como mínimo, dado el paso de hacer una copia de seguridad fresca del arreglo antes de iniciar el resilvering, sabiendo que la copia más reciente de los datos estaría disponible en caso de que el proceso de resilvering no tuviera éxito. También permitiría a la persona programar cuándo debería comenzar el resilvering, posiblemente esperando hasta que terminara el horario laboral o hubiera comenzado el fin de semana, cuando es menos probable que el arreglo experimente una carga elevada.

El RAID de paridad doble y triple (RAID 6 y RAIDZ3 respectivamente) comparten también los riesgos de URE, ya que también se basan en la paridad. Mitigan este riesgo mediante los niveles adicionales de paridad y lo hacen con éxito en su mayor parte. El riesgo sigue existiendo, especialmente en arreglos RAID 6 muy grandes, pero durante los próximos varios años los riesgos siguen siendo generalmente bastante bajos para la mayoría de los arreglos de almacenamiento, hasta que estén disponibles en el mercado medios de almacenamiento basados en husillos mucho más grandes.

El mayor problema con el RAID de paridad y el riesgo de URE es que el factor que impulsa hacia el RAID de paridad (estar dispuesto a afrontar riesgos adicionales para la integridad de los datos con el fin de reducir el costo) es el mismo factor que introduce un riesgo de URE elevado (comprar unidades de disco SATA de menor costo, no empresariales). Las organizaciones que se enfrentan al RAID de paridad generalmente lo hacen con unidades SATA grandes y de bajo costo, juntando dos factores muy peligrosos en una combinación explosiva. Usar RAID 1 o RAID 10 sin paridad eliminará por completo el problema, y usar unidades SAS empresariales altamente fiables reducirá drásticamente el factor de riesgo en un orden de magnitud (no es una expresión, es en realidad un cambio de un orden de magnitud).

Además, durante las operaciones de resilvering es posible que el rendimiento se degrade en los sistemas de paridad de forma tan drástica como para equivaler a una interrupción a largo plazo. El proceso de resilvering, especialmente en arreglos grandes, puede ser tan intensivo que los usuarios finales no puedan distinguir entre un arreglo que ha fallado por completo y un arreglo en proceso de resilvering. De hecho, el resilvering, en su forma extrema, puede tardar tanto y ser tan disruptivo que el costo para la empresa puede ser mayor que si el arreglo simplemente hubiera fallado por completo y se hubiera realizado en su lugar una restauración desde la copia de seguridad. Este problema del resilvering no afecta a RAID 1 ni a RAID 10, de nuevo, porque son sistemas RAID de espejo, no de paridad, y su proceso de resilvering es trivial y la degradación del rendimiento del sistema es mínima y de corta duración. En su forma más extrema, un resilvering de paridad podría tardar semanas o meses, tiempo durante el cual los sistemas actúan como si estuvieran fuera de línea – y en cualquier momento durante este proceso existe la posibilidad de que surjan los errores URE mencionados anteriormente, lo que pondría fin al resilvering y forzaría la restauración desde la copia de seguridad de todos modos. (Los resilverings típicos no tardan semanas, pero sí tardan muchas horas, y que tarden días no es nada raro).

Nuestro resumen final puede desglosarse de la siguiente manera (usando de nuevo el término convencional “hot spare”): RAID 10 sin un “hot spare” es casi siempre una mejor elección que RAID 6 con un “hot spare.” RAID 6 sin un “hot spare” es siempre mejor que RAID 5 con un “hot spare.” RAID 1 con un miembro de espejo adicional es siempre mejor que RAID 1 con un “hot spare.” Así que cualquiera que sea el nivel de RAID con un hot spare que decidas, simplemente sube un nivel de fiabilidad de RAID y elimina el “hot spare” para maximizar tanto el rendimiento como la fiabilidad por un costo igual o casi igual.

Los warm spares, al igual que el RAID de paridad, tuvieron su momento de gloria. De hecho, fue cuando el RAID de paridad todavía tenía sentido para un uso generalizado – cuando los errores URE eran improbables y los costos de los discos eran altos – que las unidades warm spare también tenían sentido. Estaban bien emparejados: cuando uno tenía sentido, el otro a menudo también. Lo que a menudo se pasa por alto es que, a medida que el RAID de paridad, especialmente RAID 5, ha perdido eficacia, ha arrastrado consigo al warm spare de maneras inesperadas.

Etiquetadodisk drive hard disk raid storage

Más para leer.

Cuando una copia de seguridad no es una copia de seguridad

El punto de inflexión del RAID por software

Nueva hiperconvergencia, viejo almacenamiento