Une autopsie publique d'une panne

Bien des choses dans la vie ont une approche communément admise comme « prudente » et une approche communément admise comme « risquée » qu'il conviendrait d'éviter, du moins selon l'opinion populaire. En matière d'investissement, par exemple, nous considérons souvent l'achat d'obligations d'État ou municipales comme peu risqué et l'investissement en actions (titres d'entreprises) comme très risqué — mais les chiffres statistiques nous disent que c'est l'inverse et que presque tout le monde perd de l'argent sur les obligations et en gagne sur les actions. La « sagesse » populaire, mise à l'épreuve, se révèle fondée purement sur des émotions, lesquelles reposent à leur tour sur des idées fausses, et la chose la plus risquée en matière d'investissement consiste à laisser l'émotion guider les stratégies d'investissement.

De même, en matière d'évaluation des risques d'entreprise, l'approche courante consiste à ressentir une réaction émotionnelle face au danger, ce qui déclenche une réaction de panique et engendre une forte tendance chez les gens à surcompenser le risque perçu. Nous l'observons fréquemment chez de petites entreprises dont l'infrastructure informatique génère très peu de revenus ou n'est guère essentielle aux opérations à court terme, et qui dépensent des sommes considérables pour se prémunir contre un risque qui n'est que partiellement perçu et très mal formulé. Cela devient souvent si excessif que le processus d'atténuation est fréquemment géré de manière émotionnelle plutôt qu'intellectuelle, et nous trouvons régulièrement des entreprises mettant en œuvre des conceptions de systèmes médiocres qui, en réalité, accroissent le risque au lieu de le réduire, tout en dépensant des sommes très importantes ; puis, le risque étant pour l'essentiel imaginaire, elles qualifient le projet de réussite en s'appuyant sur une succession d'idées fausses : un risque imaginaire, une atténuation imaginaire du risque et une réussite imaginaire.

Dans un passé récent, j'ai eu l'occasion d'être impliqué dans un désastre total pour une petite entreprise. Le désastre a frappé ce qui s'apparentait presque à un « scénario du pire ». Pas tout à fait, mais on en était très proche. La réaction émotionnelle, sur le moment, face au désastre fut intense, et une fois le désastre pleinement en cours, il était courant que presque tout le monde affirme et répète que la planification de la reprise après sinistre avait été défaillante et que le problème aurait dû être évité. C'est très courant dans toute situation de désastre : les humains estiment qu'il devrait toujours y avoir quelqu'un à blâmer et qu'il devrait exister des scénarios à risque nul si nous accomplissons correctement notre travail, mais cela est totalement faux.

Heureusement, nous avons réalisé une autopsie complète, comme il convient de le faire après tout véritable désastre, afin de déterminer ce qui avait mal tourné, ce qui s'était bien passé, comment nous pouvions corriger les processus et les décisions qui avaient échoué et comment nous pouvions préserver ceux qui nous avaient protégés. En général, lorsqu'un incident système d'envergure survient, je ne peux pas en parler publiquement. Mais de temps à autre, je le peux. Il est si fréquent de réagir à un désastre, à n'importe quel désastre, en se disant « ah, si seulement nous avions… ». Mais il faut examiner le désastre. Il y a tant à apprendre sur les processus et sur nous-mêmes.

D'abord, un peu de contexte. Un serveur critique, fonctionnant dans un centre de données d'entreprise, héberge plusieurs charges de travail essentielles, très importantes pour plusieurs entreprises. Il a un peu plus de quatre ans et fonctionne en isolation depuis de nombreuses années. Les serveurs plus anciens sont toujours un peu inquiétants à mesure qu'ils approchent de leur fin de vie. Quatre ans est loin de constituer une fin de vie pour un serveur de classe entreprise, mais il n'était assurément plus tout jeune non plus.

Il s'agissait d'un serveur unique, dépourvu de tout mécanisme de basculement. Les sauvegardes étaient gérées de manière externe, vers un appareil de sauvegarde d'entreprise situé dans le même centre de données. Une conception de système très simple.

Je n'inclurai pas tous les détails internes, car toute situation de ce genre comporte de nombreuses complexités, tant dans la planification que dans l'exploitation. Celles-ci relèvent au mieux d'un processus d'autopsie interne.

Lorsque le serveur est tombé en panne, il l'a fait de manière spectaculaire. La défaillance était si totale que nous avons été incapables de la diagnostiquer à distance, même avec l'aide des techniciens présents sur place au centre de données. Même le fournisseur du serveur a été incapable de diagnostiquer le problème. Cela nous a placés dans une position difficile : comment faire face à un serveur mort lorsque le matériel ne peut être réparé de manière fiable ? Nous pouvions remplacer les disques, remplacer les alimentations, remplacer la carte mère. Qui pouvait savoir où se trouvait la solution ?

Au bout du compte, la décision fut que le serveur ainsi que le système de sauvegarde devaient être rapatriés au siège principal, où ils pourraient être triés en personne et avec un maximum de ressources. Finalement, le système a pu être réparé et aucune donnée n'a été perdue. La décision de s'abstenir de recourir à la sauvegarde a été prise parce que la récupération des données primait sur la disponibilité du système.

En fin de compte, le désastre fut l'un des plus complets que l'on puisse imaginer sans subir de perte de données réelle. La panne s'est prolongée pendant plusieurs jours et de nombreux équipements de rechange, des heures de main-d'œuvre et des tentatives de réparation ont été mobilisés. Le processus fut épuisant, mais une fois achevé, le système a été rétabli avec succès.

La longue panne et le sentiment de chaos, à mesure que les choses étaient diagnostiquées et que les tentatives de réparation se succédaient, ont engendré un sentiment général d'échec. Les gens ont commencé à le dire, et cela conduit les gens à le croire. Dans des conditions de réponse à une urgence, il est très facile de devenir excessivement émotif, surtout lorsqu'on a très peu d'occasions de dormir.

Mais lorsque nous avons pris du recul et examiné le résultat final, ce que nous avons découvert a surpris presque tout le monde : l'opération de triage et la planification initiale des risques avaient été couronnées de succès.

Le chaos qui règne pendant un triage donne souvent l'impression que les choses sont bien pires qu'elles ne le sont en réalité. Mais notre gestion du triage avait été superbe. Le triage ne relève pas de la magie, et il comporte une phase de découverte et une phase de réaction. Lorsque nous avons analysé l'ordre des événements et que nous les avons disposés sur une chronologie, nous avons constaté que nous avions si bien agi qu'il n'existait pratiquement aucun point où nous aurions pu raccourcir le délai. Nous avions effectué de bons diagnostics, mobilisé les bonnes parties au bon moment, mis les pièces en mouvement logistique dès que possible, et l'essentiel de ce qui paraissait avoir été un temps frénétique et gaspillé était en réalité du « temps de remplissage », pendant lequel nous tentions de déterminer s'il existait des options supplémentaires ou si des erreurs avaient été commises tandis que nous attendions les pièces nécessaires à la réparation. Cela donnait l'impression que les choses étaient bien pires qu'elles ne l'étaient, mais tout cela constituait l'ensemble d'actions qu'il convenait d'entreprendre.

Du point de vue du triage et de la reprise, le processus s'était déroulé sans accroc, même si la panne a fini par s'étendre sur plusieurs jours. Une fois le désastre survenu, et survenu dans des proportions aussi considérables, la reprise s'est en réalité déroulée de façon remarquablement fluide. Rien n'est absolument parfait, mais cela s'est extrêmement bien passé. La machine a fonctionné comme prévu.

L'aspect bien plus surprenant fut l'examen de l'impact du désastre. Il y a deux façons de l'envisager. La première est la plus avisée, l'approche « sans recul a posteriori ». Ici, nous examinons le désastre, le coût de l'impact du désastre, le coût de l'atténuation, puis nous y appliquons la probabilité que le désastre se soit produit, afin de déterminer si la bonne décision de planification avait été prise. C'est difficile à calculer, car le facteur de risque est toujours un chiffre approximatif, mais on peut généralement parvenir à une précision suffisante pour savoir à quel point sa planification était bonne. La seconde façon est l'approche du recul a posteriori parfait : et si nous avions su que ce désastre allait se produire, qu'aurions-nous fait pour l'empêcher ? Il est évidemment tout à fait injuste de supprimer le facteur de risque et d'examiner ce que le désastre a coûté en chiffres bruts, car nous ne pouvons savoir ce qui va mal tourner et planifier en fonction de cette seule éventualité, ni dépenser des sommes illimitées pour quelque chose dont nous ignorons en réalité s'il se produira. Les entreprises commettent souvent l'erreur d'utiliser ce dernier calcul et de blâmer les planificateurs pour ne pas avoir eu une clairvoyance parfaite.

En l'occurrence, nous étions raisonnablement convaincus d'avoir pris le bon pari dès le départ. Le système était en place depuis près d'une décennie sans la moindre interruption. Le coût global du système avait été faible, le coût du triage modéré et l'événement extrêmement improbable. Que, compte tenu du facteur de risque, nous ayons effectué une bonne planification n'a globalement surpris personne.

Ce qui fut surprenant, c'est que lorsque nous avons effectué les calculs sans le facteur de risque, même si nous avions su que le système allait tomber en panne et qu'une panne prolongée surviendrait, nous aurions tout de même pris la même décision ! Cela était proprement stupéfiant. Le coût de la panne prolongée était en réalité inférieur au coût du matériel, de l'hébergement et de la main-d'œuvre nécessaires à la construction d'un système d'atténuation des risques fonctionnel — en l'occurrence, il se serait agi de disposer d'un serveur entièrement redondant dans le centre de données, aux côtés de celui qui était en production. En fait, les économies réalisées en acceptant cette panne prolongée avaient permis d'économiser près de dix mille dollars !

Il s'est avéré qu'il s'agissait d'un cas extrême, où la panne était dévastatrice, difficile à prévoir, impossible à réparer rapidement, et qui s'est pourtant traduite par des économies massives à long terme ; mais la leçon est importante. Tant de poids émotionnel accompagne tout désastre que, si nous ne procédons pas à une analyse d'autopsie appropriée et ne nous efforçons pas d'écarter les réactions émotionnelles de notre prise de décision, nous nous précipiterons souvent vers une perte financière à grande échelle ou vers une attribution erronée des responsabilités, alors même que les choses se sont bien passées. Bien des entreprises auraient considéré ce désastre et y auraient réagi en surdépensant de manière spectaculaire pour empêcher la récurrence du même événement improbable à l'avenir, alors même qu'elles avaient sous les yeux les calculs leur démontrant qu'agir ainsi gaspillerait de l'argent, même si cet événement venait à se reproduire !

D'autres leçons étaient à tirer de cette panne. Nous avons appris où les communications n'avaient pas été idéales, où les bonnes personnes ne se trouvaient pas toujours au bon poste de décision, où les communications avec le client n'avaient pas été ce qu'elles auraient dû être, où le client ne nous avait pas correctement informés des changements, et bien plus encore. Mais, dans l'ensemble, les leçons furent que nous avions correctement planifié, que notre opération de triage avait correctement fonctionné et que nous avions fait économiser au client plusieurs milliers de dollars par rapport à ce qui aurait paru être l'approche « prudente » ; et qu'en réalisant une bonne autopsie, nous avions su les empêcher, eux comme nous, de réagir de manière excessive et de transformer une bonne décision en une mauvaise pour l'avenir. Sans autopsie, nous aurions très probablement modifié nos bons processus en croyant qu'ils avaient été mauvais.

Les leçons à retenir ici, que je souhaite vous transmettre, à vous lecteur, sont que les autopsies constituent une étape cruciale de tout désastre, que la pensée prudente traditionnelle est souvent très risquée et que les réactions émotionnelles face au risque provoquent souvent des désastres financiers plus importants que les désastres techniques contre lesquels elles cherchent à se prémunir.

Mots-cléspost mortem

À lire également.

Quand envisager la haute disponibilité ?

Planifier la reprise après sinistre avec le matériel de plateforme existant

L'effet Jurassic Park