La redoutable confusion de baie
La redoutable confusion de baie, ou DAC (Dreaded Array Confusion), est un terme désignant un groupe de types de défaillances de baies RAID qu'il est concrètement impossible de diagnostiquer, mais qui se caractérisent par le point commun de ne présenter aucune défaillance de disque tout en s'accompagnant d'une panne totale de la baie entraînant une perte complète des données. On suppose que trois causes principales sont à l'origine de la majorité des cas de DAC :
Bogues logiciels ou de micrologiciel : Si les bogues spectaculaires dans le comportement du RAID sont rares aujourd'hui, ils restent toujours possibles, en particulier avec les types de baies plus complexes comme le RAID à parité, où des calculs de reconstruction doivent être effectués sur la baie. Un bogue dans le logiciel ou le micrologiciel RAID (selon que l'on parle de RAID logiciel ou matériel) pourrait se manifester d'innombrables façons, y compris par la destruction accidentelle de la baie. Des problèmes de micrologiciel pourraient également survenir dans les disques eux-mêmes.
Défaillance matérielle : Une défaillance matérielle touchant des composants tels que les processeurs, la mémoire ou les contrôleurs peut avoir des effets spectaculaires sur une baie RAID. Les erreurs mémoire, en particulier, pourraient facilement entraîner la perte totale de la baie. On pense qu'il s'agit de la cause la moins fréquente de DAC.
Désolidarisation des disques : Dans ce scénario, des disques individuels se désolidarisent et se déconnectent du fond de panier, puis se remettent en place par la suite, déclenchant un événement de reconstruction (resilvering). Si cela devait se produire sur plusieurs disques au cours d'un cycle de reconstruction, ou si une URE était rencontrée pendant une reconstruction, nous assisterions à la perte totale de la baie sur les baies à parité, potentiellement même sans qu'aucune défaillance matérielle ne se produise.
En raison de la nature de la DAC, et parce qu'il ne s'agit pas d'un problème lié au RAID lui-même mais à ses composants de support, nous nous trouvons dans une position très difficile pour tenter d'identifier ou de quantifier le risque. Personne ne sait quelle est la probabilité qu'une DAC se produise et, bien que nous sachions que la DAC constitue une menace plus importante sur les systèmes RAID à parité, nous ignorons dans quelle mesure. Les éléments anecdotiques laissent penser que le risque sur le RAID en miroir est extrêmement faible, au point d'être incommensurable, et que sur le RAID à parité il pourrait s'élever au-dessus du bruit de fond dans une analyse de risque. Parmi les modes de défaillance, les bogues logiciels et la désolidarisation des disques présentent tous deux un risque bien plus élevé pour les systèmes fonctionnant en RAID à parité, car le risque d'URE n'affecte que les baies à parité et le logiciel nécessaire à la parité est bien plus complexe que celui requis pour la mise en miroir. Le RAID à parité est tout simplement plus fragile et comporte davantage de types de risques, l'exposant à la DAC de plus de manières que ne l'est le RAID en miroir.
Parce que la DAC recouvre un ensemble de possibilités et parce qu'il est concrètement impossible de l'identifier une fois qu'elle s'est produite, il existe peu de moyens envisageables de recueillir des données à son sujet. Depuis que la DAC a été identifiée comme un risque, de nombreuses personnes se sont manifestées, principalement au sein de la communauté Spiceworks, pour apporter des témoignages oculaires anecdotiques de défaillances de baies dues à la DAC. La nature de l'informatique chez l'utilisateur final fait que les statistiques, surtout sur des concepts nébuleux comme la DAC qui ne sont pas largement connus, ne sont pas collectées et ne peuvent pas l'être. La DAC survient dans des infrastructures partout dans le monde, où un administrateur système revient au bureau pour découvrir un serveur dont toutes les données ont disparu sans qu'aucun matériel n'ait défailli. Les données sont déjà perdues. Il est peu probable que des diagnostics soient exécutés, des journaux n'existeront pas et, même si le problème pouvait être identifié, à qui le signalerait-on ? Et même s'il était signalé, comment quantifier à quelle fréquence il se produit par rapport à la fréquence à laquelle il ne se produit pas, ou à quelle fréquence il pourrait se produire sans être signalé ? Hélas, tout ce que je sais, c'est qu'après avoir identifié et quelque peu médiatisé le risque ainsi que ses symptômes, de nombreuses personnes se sont soudain manifestées pour reconnaître avoir, elles aussi, été directement témoins d'une DAC sans avoir la moindre idée de ce qui s'était passé.
Si mes études anecdotiques sont un tant soit peu révélatrices, il semblerait que la DAC pose en réalité un risque non négligeable aux baies à parité, des défaillances existant dans un pourcentage appréciable de baies, mais l'exactitude et la taille de l'échantillon de cette collecte de données étaient infimes. Cependant, on pensait à l'origine que la DAC était si rare que, théoriquement, on serait incapable de trouver qui que ce soit l'ayant déjà observée, mais cela ne semble pas être le cas. Je connais déjà de nombreuses personnes l'ayant vécue.
Nous sommes contraints, par la nature même de l'industrie, d'accepter la DAC comme un risque potentiel, de la répertorier comme un risque « mineur » et inconnu dans les évaluations de risques et de nous y préparer, sans pouvoir nous prémunir contre elle par le calcul. Mais savoir qu'elle peut constituer un risque et comprendre pourquoi elle peut se produire sont des éléments importants dans l'évaluation des risques et leur atténuation.
[Les éléments anecdotiques laissent penser que la DAC est presque toujours propre aux implémentations de RAID matériel de baies RAID à simple parité sur des contrôleurs SCSI.]
