La Temida Confusión de Matrices
La Temida Confusión de Matrices, o DAC (por sus siglas en inglés, Dreaded Array Confusion), es un término que se da a un grupo de tipos de fallo de matrices RAID que son efectivamente imposibles de diagnosticar, pero que se caracterizan por la particularidad de que no experimentan ningún fallo de disco junto con un fallo completo de la matriz, lo que resulta en una pérdida total de datos. Se plantea la hipótesis de que tres causas principales son responsables de la mayoría de los casos de DAC:
Errores de Software o Firmware: Si bien los errores dramáticos en el comportamiento de RAID son raros hoy en día, siempre son posibles, especialmente con tipos de matrices más complicados como el RAID con paridad, donde deben realizarse cálculos de reconstrucción sobre la matriz. Un error en el software o el firmware de RAID (según hablemos de RAID por software o por hardware) podría manifestarse de muchas maneras, incluida la destrucción accidental de la matriz. Los problemas de firmware también podrían producirse en los propios discos.
Fallo de Hardware: Un fallo en el hardware, como procesadores, memoria o controladoras, puede tener efectos dramáticos sobre una matriz RAID. Los errores de memoria, en especial, podrían dar lugar fácilmente a la pérdida total de la matriz. Se considera que esta es la causa menos común de DAC.
Aflojamiento de Discos: En este escenario, los discos individuales se aflojan y se desconectan del backplane y, más tarde, vuelven a encajar en su sitio, lo que desencadena un evento de resincronización. Si esto ocurriera con varios discos durante un ciclo de resincronización, o si se encontrara un URE durante una resincronización, veríamos la pérdida total de la matriz en matrices con paridad, potencialmente incluso sin que se produzca ningún fallo de hardware.
Debido a la naturaleza de la DAC, y dado que no es un problema con el propio RAID sino con los componentes de soporte del mismo, nos encontramos en una posición muy difícil para intentar identificar o cuantificar el riesgo. Nadie sabe qué tan probable es que ocurra la DAC y, aunque sabemos que la DAC es una amenaza más significativa en los sistemas RAID con paridad, no sabemos en qué medida. La evidencia anecdótica sugiere que el riesgo en el RAID con espejo es inconmensurablemente bajo y que, en el RAID con paridad, puede elevarse por encima del ruido de fondo en el análisis de riesgos. De los modos de fallo, tanto los errores de software como el aflojamiento de discos presentan un riesgo mucho mayor para los sistemas que funcionan con RAID con paridad, porque el riesgo de URE solo afecta a las matrices con paridad y el software necesario para la paridad es mucho más complejo que el software requerido para el espejo. El RAID con paridad es, sencillamente, más frágil y conlleva más tipos de riesgos, lo que lo expone a la DAC de más maneras de las que lo está el RAID con espejo.
Dado que la DAC es un conjunto de posibilidades y que es efectivamente imposible de identificar después de haber ocurrido, existen pocos medios posibles para recopilar datos sobre ella. Desde que se identificó la DAC como un riesgo, muchas personas se han manifestado, predominantemente en la comunidad de Spiceworks, para aportar relatos anecdóticos de testigos presenciales de fallos de matrices por DAC. La naturaleza de la TI del usuario final es que las estadísticas, especialmente sobre conceptos nebulosos como la DAC, que no son ampliamente conocidos, no se recopilan y no pueden recopilarse. La DAC surge en entornos de todo el mundo donde un administrador de sistemas regresa a la oficina para encontrar un servidor con todos los datos desaparecidos y sin que ningún hardware haya fallado. Los datos ya están perdidos. Probablemente no se ejecutarán diagnósticos, no existirán registros e, incluso si el problema puede identificarse, ¿a quién se reportaría y, aun reportándose, cómo cuantificamos con qué frecuencia ocurre frente a con qué frecuencia no ocurre, o con qué frecuencia podría ocurrir pero no ser reportada? Lamentablemente, todo lo que sé es que, al haber identificado y publicitado en cierta medida el riesgo y sus síntomas, de repente muchas personas se manifestaron reconociendo que también habían visto la DAC de primera mano y no tenían ni idea de qué había sucedido.
Si mis estudios anecdóticos sirven de indicador, parecería que la DAC realmente plantea un riesgo considerable para las matrices con paridad, con fallos presentes en un porcentaje apreciable de matrices, pero la precisión y el tamaño de la muestra de esa recopilación de datos eran ínfimos. Sin embargo, originalmente se pensaba que la DAC era tan rara que, en teoría, serías incapaz de encontrar a alguien que alguna vez la hubiera observado, pero no parece ser ese el caso. Ya conozco a muchas personas que la han experimentado.
Nos vemos obligados, por la naturaleza de la industria, a aceptar la DAC como un riesgo potencial y a incluirla como un riesgo “menor” desconocido en las evaluaciones de riesgos, y a estar preparados para ella, pero no podemos calcular en función de ella. Sin embargo, saber que puede ser un riesgo y entender por qué puede ocurrir son aspectos importantes a la hora de evaluar el riesgo y su mitigación.
[La evidencia anecdótica sugiere que la DAC es casi siempre exclusiva de las implementaciones de RAID por hardware de matrices RAID de paridad simple sobre controladoras SCSI.]
