Eine öffentliche Manöverkritik zu einem Ausfall

Bei vielen Dingen im Leben gibt es einen allgemein anerkannten “konservativen” Ansatz und einen allgemein anerkannten “riskanten” Ansatz, der vermieden werden sollte, zumindest nach landläufiger Meinung. Beim Investieren etwa betrachten wir den Kauf von Staats- oder Kommunalanleihen oft als risikoarm und das Investieren in Aktien (Unternehmensanteile) als risikoreich – doch die statistischen Zahlen sagen uns, dass dies genau umgekehrt ist und nahezu jeder mit Anleihen Geld verliert und mit Aktien Geld verdient. Die landläufige “Weisheit” erweist sich, wenn man sie auf die Probe stellt, als rein emotional begründet, was wiederum auf Fehlvorstellungen beruht, und das Riskanteste beim Investieren ist es, Anlagestrategien von Emotionen leiten zu lassen.

Ähnlich verhält es sich bei betrieblichen Risikobewertungen: Der übliche Ansatz besteht darin, eine emotionale Reaktion auf Gefahr zu empfinden, was eine Panikreaktion auslöst und eine starke Tendenz der Menschen bewirkt, ein wahrgenommenes Risiko überzukompensieren. Wir beobachten dies häufig bei kleinen Unternehmen, deren IT-Infrastruktur nur sehr wenig Umsatz generiert oder für den kurzfristigen Betrieb nicht sehr entscheidend ist und die hohe Geldsummen ausgeben, um sich gegen ein Risiko abzusichern, das nur teilweise wahrgenommen und sehr schlecht artikuliert wird. Dies nimmt oft ein derart dramatisches Ausmaß an, dass der Minderungsprozess häufig emotional statt rational gehandhabt wird, und wir stellen regelmäßig fest, dass Unternehmen schlechte Systementwürfe implementieren, die das Risiko tatsächlich erhöhen statt es zu verringern, während sie sehr große Geldsummen ausgeben und das Projekt dann, da das Risiko größtenteils eingebildet war, auf Grundlage von Schicht um Schicht von Fehlvorstellungen zum Erfolg erklären: eingebildetes Risiko, eingebildete Risikominderung und eingebildeter Erfolg.

In jüngster Vergangenheit war ich an einer regelrechten Katastrophe für ein kleines Unternehmen beteiligt. Die Katastrophe traf nahezu ein “Worst-Case-Szenario”. Nicht ganz, aber sehr nah dran. Die emotionale Reaktion auf die Katastrophe war zu jenem Zeitpunkt heftig, und sobald die Katastrophe voll im Gange war, war es üblich, dass nahezu jeder erklärte und wiederholte, die Notfallplanung sei fehlerhaft gewesen und das Problem hätte vermieden werden müssen. Dies ist in jeder Katastrophensituation sehr verbreitet; Menschen haben das Gefühl, dass es immer jemanden geben sollte, dem man die Schuld geben kann, und dass es Szenarien mit null Risiko geben sollte, wenn wir unsere Arbeit richtig machen, doch das ist völlig falsch.

Glücklicherweise führten wir eine vollständige Manöverkritik durch, wie man es nach jeder echten Katastrophe tun sollte, um festzustellen, was schiefgelaufen war, was gut gelaufen war, wie wir Prozesse und Entscheidungen, die versagt hatten, korrigieren und wie wir jene beibehalten konnten, die uns geschützt hatten. Normalerweise darf ich, wenn ein großes Systemereignis eintritt, nicht öffentlich darüber sprechen. Doch hin und wieder darf ich es. Es ist so verbreitet, auf eine Katastrophe, auf jede Katastrophe, zu reagieren und zu denken “ach, hätten wir nur….”. Aber man muss die Katastrophe untersuchen. Es gibt so viel über Prozesse und über uns selbst zu lernen.

Zunächst etwas Hintergrund. Ein kritischer Server, der in einem Unternehmensrechenzentrum läuft, beherbergt mehrere zentrale Arbeitslasten, die für mehrere Unternehmen sehr wichtig sind. Er ist etwas über vier Jahre alt und lief viele Jahre lang isoliert. Ältere Server sind immer ein wenig beunruhigend, wenn sie sich dem Ende ihrer Lebensdauer nähern. Vier Jahre sind für einen Server der Enterprise-Klasse kaum das Ende der Lebensdauer, doch er war sicherlich auch nicht mehr jung.

Dies war ein einzelner Server ohne jeglichen Failover-Mechanismus. Die Backups wurden extern auf einer Enterprise-Backup-Appliance im selben Rechenzentrum abgewickelt. Ein sehr einfaches Systemdesign.

Ich werde nicht alle internen Details aufführen, da jede derartige Situation viele Komplexitäten in Planung und Betrieb mit sich bringt. Diese sind am besten einem internen Manöverkritik-Prozess vorbehalten.

Als der Server ausfiel, fiel er auf spektakuläre Weise aus. Der Ausfall war so vollständig, dass wir ihn nicht aus der Ferne diagnostizieren konnten, selbst mit Unterstützung der Techniker vor Ort im Rechenzentrum. Sogar der Serverhersteller war nicht in der Lage, das Problem zu diagnostizieren. Dies brachte uns in eine schwierige Lage – wie geht man mit einem toten Server um, wenn die Hardware nicht zuverlässig repariert werden kann? Wir konnten Laufwerke austauschen, wir konnten Netzteile austauschen, wir konnten das Mainboard austauschen. Wer wusste schon, was die Lösung sein könnte.

Letztlich fiel die Entscheidung, dass sowohl der Server als auch das Backup-System zurück in die Hauptniederlassung verlegt werden mussten, wo sie persönlich und mit maximalen Ressourcen einer Triage unterzogen werden konnten. Am Ende stellte sich heraus, dass das System repariert werden konnte und keine Daten verloren gingen. Die Entscheidung, auf das Backup zu verzichten, wurde getroffen, da die Datenwiederherstellung wichtiger war als die Systemverfügbarkeit.

Als alles gesagt und getan war, war die Katastrophe eine der vollständigsten, die man sich vorstellen kann, ohne tatsächlichen Datenverlust zu erleiden. Der Ausfall zog sich über viele Tage hin, und es wurden viel Ersatzausrüstung, Arbeitsstunden und Reparaturversuche aufgewendet. Der Prozess war zermürbend, doch nach Abschluss war das System erfolgreich wiederhergestellt.

Der lange Ausfall und das Gefühl des Chaos, während Dinge diagnostiziert und Reparaturversuche unternommen wurden, führten zu einem allgemeinen Gefühl des Versagens. Die Leute fingen an, es auszusprechen, und das führt dazu, dass die Leute es glauben. Unter einer Notfallreaktionsbedingung ist es sehr leicht, übermäßig emotional zu werden, besonders wenn es nur sehr wenig Schlaf gibt.

Doch als wir einen Schritt zurücktraten und uns das Endergebnis ansahen, überraschte das, was wir vorfanden, nahezu jeden: Die Triage-Operation und die anfängliche Risikoplanung waren erfolgreich gewesen.

Das Chaos, das während einer Triage entsteht, lässt die Dinge oft viel schlimmer erscheinen, als sie wirklich sind. Doch unsere Triage-Abwicklung war hervorragend gewesen. Triage bedeutet keine Magie, und es gibt eine Entdeckungsphase und eine Reaktionsphase. Als wir die Reihenfolge der Ereignisse analysierten und sie auf einem Zeitstrahl darstellten, stellten wir fest, dass wir so gut gehandelt hatten, dass es kaum eine mögliche Stelle gab, an der wir den Zeitrahmen hätten verkürzen können. Wir hatten gute Diagnosen durchgeführt, die richtigen Parteien zur richtigen Zeit eingebunden, Teile so schnell wie möglich logistisch in Bewegung gesetzt, und der Großteil dessen, was wie hektische, verschwendete Zeit erschien, war in Wirklichkeit “Füllzeit”, in der wir zu ermitteln versuchten, ob zusätzliche Optionen existierten oder Fehler gemacht worden waren, während wir auf die für die Reparatur benötigten Teile warteten. Das ließ die Dinge viel schlimmer erscheinen, als sie wirklich waren, doch all dies war die richtige Abfolge von Maßnahmen, die zu ergreifen waren.

Aus der Perspektive von Triage und Wiederherstellung war der Prozess makellos verlaufen, auch wenn der Ausfall letztlich viele Tage in Anspruch nahm. Sobald die Katastrophe eingetreten war – und zwar in dem unglaublichen Ausmaß, in dem sie es tat –, verlief die Wiederherstellung tatsächlich unglaublich reibungslos. Nichts ist absolut perfekt, doch es lief außerordentlich gut. Die Maschinerie funktionierte wie vorgesehen.

Der weitaus überraschendere Teil war die Betrachtung der Auswirkungen der Katastrophe. Es gibt zwei Möglichkeiten, dies zu betrachten. Die eine ist die klügere, der Ansatz “ohne Rückschau”. Hier betrachten wir die Katastrophe, die Auswirkungskosten der Katastrophe, die Minderungskosten und wenden die Wahrscheinlichkeit an, mit der die Katastrophe eingetreten wäre, und bestimmen, ob die richtige Planungsentscheidung getroffen worden war. Dies ist schwer zu berechnen, da der Risikofaktor stets eine geschönte Zahl ist, doch man kann normalerweise genau genug werden, um zu wissen, wie gut die eigene Planung war. Die zweite Möglichkeit ist der Ansatz der nachträglichen Klarsicht (20/20-Rückschau) – was hätten wir getan, um sie zu verhindern, wenn wir gewusst hätten, dass diese Katastrophe eintreten würde? Es ist offensichtlich völlig unfair, den Risikofaktor zu entfernen und zu betrachten, was die Katastrophe in nackten Zahlen gekostet hat, denn wir können nicht wissen, was schiefgehen wird, und nur für diese eine Möglichkeit planen oder unbegrenzt Geld für etwas ausgeben, von dem wir nicht tatsächlich wissen, ob es eintreten wird. Unternehmen begehen oft den Fehler, die letztere Berechnung zu verwenden, und geben Planern die Schuld dafür, keine perfekte Weitsicht gehabt zu haben.

In diesem Fall waren wir einigermaßen zuversichtlich, dass wir von Anfang an das richtige Wagnis eingegangen waren. Das System war den größten Teil eines Jahrzehnts ohne jegliche Ausfallzeit in Betrieb gewesen. Die Gesamtsystemkosten waren niedrig gewesen, die Triage-Kosten moderat und das Ereignis äußerst unwahrscheinlich. Dass wir unter Berücksichtigung des Risikofaktors eine gute Planung geleistet hatten, überraschte im Allgemeinen niemanden.

Überraschend war, dass wir, als wir die Berechnungen ohne den Risikofaktor durchführten, selbst dann dieselbe Entscheidung getroffen hätten, wenn wir gewusst hätten, dass das System ausfallen und ein längerer Ausfall eintreten würde! Das war geradezu schockierend. Die Kosten des längeren Ausfalls waren tatsächlich geringer als die Kosten für die benötigte Ausrüstung, das Hosting und die Arbeit, um ein funktionierendes Risikominderungssystem aufzubauen – was in diesem Fall bedeutet hätte, einen vollständig redundanten Server im Rechenzentrum neben dem in Produktion befindlichen zu betreiben. Tatsächlich hatte die Kosteneinsparung durch die Inkaufnahme dieses längeren Ausfalls nahezu zehntausend Dollar eingespart!

Dies erwies sich als ein Extremfall, in dem der Ausfall verheerend schlimm, schwer vorherzusagen und nicht schnell zu beheben war und dennoch zu massiven langfristigen Kosteneinsparungen führte, doch die Lektion ist eine wichtige. Mit jeder Katastrophe geht so viel emotionaler Ballast einher; wenn wir keine ordentliche Manöverkritik durchführen und nicht daran arbeiten, emotionale Reaktionen aus unserer Entscheidungsfindung zu entfernen, springen wir oft zu großflächigen finanziellen Verlusten oder weisen Schuld falsch zu, selbst wenn die Dinge gut gelaufen sind. Viele Unternehmen hätten diese Katastrophe betrachtet und reagiert, indem sie dramatisch zu viel ausgegeben hätten, um dasselbe unwahrscheinliche Ereignis künftig zu verhindern, selbst wenn sie die Rechnung vor sich gehabt hätten, die ihnen sagte, dass dies Geldverschwendung wäre, selbst wenn dieses Ereignis erneut einträte!

Aus diesem Ausfall waren noch weitere Lektionen zu lernen. Wir lernten, wo die Kommunikation nicht ideal gewesen war, wo die richtigen Personen nicht immer an der richtigen Entscheidungsstelle gesessen hatten, wo die Kommunikation mit den Kunden nicht so gewesen war, wie sie hätte sein sollen, dass der Kunde uns nicht ordnungsgemäß über Änderungen informiert hatte und mehr. Doch im Großen und Ganzen lauteten die Lektionen, dass wir richtig geplant hatten und unsere Triage-Operation korrekt funktioniert hatte und wir dem Kunden mehrere tausend Dollar gegenüber dem gespart hatten, was als der “konservative” Ansatz erschienen wäre, und dass wir durch eine gute Manöverkritik es geschafft hatten, ihn und uns davor zu bewahren, überzureagieren und eine gute Entscheidung künftig in eine schlechte zu verwandeln. Ohne eine Manöverkritik hätten wir sehr wahrscheinlich unsere guten Prozesse geändert, in dem Glauben, sie seien schlechte gewesen.

Die Lehren, die ich Ihnen, dem Leser, hier vermitteln möchte, sind, dass Manöverkritiken ein entscheidender Schritt bei jeder Katastrophe sind, dass traditionelles konservatives Denken oft sehr riskant ist und dass emotionale Reaktionen auf Risiko oft finanzielle Katastrophen verursachen, die größer sind als die technischen, gegen die sie sich abzusichern suchen.

Verschlagwortetpost mortem

Weitere Lektüre.

Wann sollte man Hochverfügbarkeit in Betracht ziehen?

Notfallwiederherstellungsplanung mit vorhandener Plattform-Hardware

Der Jurassic-Park-Effekt