Brauchen Sie wirklich Redundanz: Die tatsächlichen Kosten von Ausfallzeiten

Ausfallzeit – das ist ein Wort, das niemand hören möchte. Es versetzt Unternehmen, Führungskräfte und insbesondere IT-Mitarbeiter in Angst und Schrecken. Ausfallzeiten kosten Geld und sorgen für Frust.

Da Ausfallzeiten eine emotionale Reaktion auslösen, gehen Unternehmen damit oft anders um als mit klassischen betriebswirtschaftlichen Faktoren. Dieser emotionale Ansatz führt dazu, dass Unternehmen – insbesondere kleinere Unternehmen, denen es häufig an rationalen finanziellen Kontrollmechanismen mangelt – Ausfallzeiten als weitaus schlimmer einstufen, als sie es tatsächlich sind. Es ist nicht ungewöhnlich, dass sich kleinere Unternehmen durch ihre Reaktion auf die Angst vor möglichen Ausfallzeiten tatsächlich größeren finanziellen Schaden zugefügt haben, als die befürchtete Ausfallzeit angerichtet hätte, wäre sie tatsächlich eingetreten. Das ist eine gefährliche Überreaktion.

Der erste Schritt besteht darin, die Kosten von Ausfallzeiten zu ermitteln. In der IT haben wir es häufig mit recht komplexen Systemen zu tun, und Ausfallzeiten treten in unterschiedlichen Ausprägungen auf, etwa als Verlust des Zugriffs, als Leistungseinbußen oder als vollständiger Ausfall eines oder mehrerer Systeme. Jede Art von Ausfallzeit und die damit verbundenen Kosten zu bestimmen, kann recht aufwendig sein, doch eine grobe Betrachtung reicht oft aus, um rationale Budgets aufzustellen, oder bildet zumindest einen guten Ausgangspunkt auf dem Weg zum Verständnis der mit Ausfallzeiten verbundenen Geschäftsrisiken. Bedenken Sie, dass es ebenso schädlich ist, zu viel Geld in die Vermeidung von Ausfallzeiten zu stecken, wie zu viel Aufwand in die Berechnung der Kosten von Ausfallzeiten zu investieren. Verwenden Sie nicht so viel Zeit und Ressourcen darauf, zu ermitteln, ob Sie Geld verlieren werden, dass es besser gewesen wäre, das Geld einfach zu verlieren. Hüten Sie sich vor den hohen Kosten der Entscheidungsfindung.

Wir können damit beginnen, ausschließlich den vollständigen Systemausfall zu betrachten. Welche Kosten verursacht ein organisationsweiter Ausfall für Sie – das heißt, wie viel Geld geht verloren, wenn Sie den gesamten Geschäftsbetrieb für eine Stunde oder einen Tag einstellen müssten? In manchen Fällen könnten die Verluste dramatisch ausfallen, etwa bei einem Krankenhaus, bei dem ein Tag Ausfallzeit zu einem Vertrauensverlust und dem Verlust künftiger Kunden führen und möglicherweise Klagen nach sich ziehen würde. In vielen Fällen jedoch hätte ein Tag Ausfallzeit nur geringe finanzielle Auswirkungen – viele Unternehmen könnten den Tag einfach zum Feiertag erklären, ihren Mitarbeitern einen Tag Pause gönnen und die Belegschaft in den darauffolgenden Tagen etwas härter arbeiten lassen, um den durch den verlorenen Tag entstandenen Rückstand aufzuholen. Letztlich kommt es darauf an, wie Ihr Unternehmen arbeitet und arbeiten kann und wie gut Sie darauf eingestellt sind, verlorene Zeit auszugleichen. Viele Unternehmen betrachten ausschließlich die Tagesumsätze, um entgangene Erlöse zu ermitteln, doch dies kann äußerst irreführend sein.

Sobald wir einen groben Wert für die Kosten von Ausfallzeiten ermittelt haben, können wir das Ausfallrisiko betrachten. Dies lässt sich nur sehr schwer einschätzen, da belastbare Zahlen zur Zuverlässigkeit von IT-Systemen praktisch nicht vorhanden sind und die Systeme jeder Organisation so einzigartig sind, dass Branchendaten nahezu wertlos sind. Hier sind wir darauf angewiesen, dass die IT-Mitarbeiter einen Überblick über die Risiken und im Idealfall eine verlässliche Einschätzung der Eintrittswahrscheinlichkeiten einzelner Risiken liefern. Wenn wir beispielsweise – in groben Zahlen – eine geschäftskritische Anwendung hätten, die auf einem Server mit nur einer einzigen Festplatte läuft, dann würden wir erwarten, dass es irgendwann in den nächsten fünf bis zehn Jahren zu Ausfallzeiten infolge des Ausfalls dieser Festplatte kommt. Hätten wir denselben Server mit Hot-Swap-Laufwerken in einem gespiegelten Array, dann ist die Wahrscheinlichkeit von Ausfallzeiten im Zusammenhang mit diesem Speichersystem selbst über zehn Jahre hinweg recht gering. Das bedeutet nicht, dass ein Laufwerk nicht ausfallen wird – das wird es –, sondern dass das System voraussichtlich unbeeinträchtigt bleibt, bis die Redundanz wiederhergestellt ist, ohne dass die Endanwender überhaupt bemerken, dass etwas geschehen ist.

Unser letztes Hilfsmittel zur groben Abschätzung besteht darin, die relevanten Geschäftszeiten einzubeziehen. Viele Unternehmen arbeiten nicht rund um die Uhr; einige tun es natürlich, doch die meisten nicht. Ist der Ausfall einer geschäftskritischen Anwendung um sechs Uhr abends gleichbedeutend mit dem Ausfall dieser Anwendung um zehn Uhr morgens? Was ist am Wochenende? Wird sie um drei Uhr an einem Freitagnachmittag produktiv genutzt, oder würde ihr Ausfall kaum etwas kosten und für zufriedene Mitarbeiter sorgen, die ein oder zwei zusätzliche Stunden ihres Wochenendes gewinnen? Lassen sich Zeitpläne anpassen, falls ein Ausfall nahe der Mittagszeit eintritt? Diese scheinbar belanglosen Faktoren können erheblich sein. Wenn sich Ausfallzeiten auf lediglich zwei bis vier Stunden beschränken, können viele Unternehmen nahezu sämtliche finanziellen Auswirkungen abfedern, indem sie die Mitarbeiter schlicht um etwas Flexibilität in ihren Zeitplänen bitten, um den Ausfall aufzufangen – etwa indem sie früher Mittagspause machen oder an einem Tag früher Feierabend machen und am nächsten eine Stunde länger arbeiten.

Da wir nun über diese Faktoren verfügen – die Kosten von Ausfallzeiten, die Fähigkeit, die Auswirkungen von Ausfallzeiten je nach Dauer abzumildern, und die Risiken von Ausfallereignissen –, können wir beginnen, ein Bild davon zu zeichnen, wie ein Ausfallereignis voraussichtlich aussehen wird. Daraus können wir ableiten, wie viel Geld es wert wäre, das Risiko eines solchen Ereignisses zu verringern. Für manche Unternehmen wird dieser Betrag äußerst hoch sein, für andere überraschend niedrig. Diese Übung kann viel darüber offenlegen, wie ein Unternehmen arbeitet, was normalerweise möglicherweise gar nicht so deutlich sichtbar ist.

An dieser Stelle ist es wichtig zu betonen, dass wir hier den Verlust der Verfügbarkeit von Systemen betrachten, nicht den Verlust von Daten. Wir setzen voraus, dass ordnungsgemäße Backups erstellt werden und dass diese Backups nicht beeinträchtigt sind. Redundanz und Ausfallzeit sind keine Themen, die mit Datenverlust zusammenhängen, sondern ausschließlich mit dem Verlust der Verfügbarkeit. Szenarien des Datenverlusts sollten mit gleicher oder größerer Sorgfalt behandelt werden, bilden jedoch ein eigenes Thema. Es ist ein seltenes Unternehmen, das einen katastrophalen Datenverlust überstehen kann, doch es ist üblich, selbst erhebliche Ausfallzeiten zu erleben und mühelos zu überstehen.

Es gibt mehrere Möglichkeiten, Ausfallzeiten abzuwehren. Redundanz ist dabei sehr präsent und wird fast wie ein Schlagwort behandelt und erhält daher viel Aufmerksamkeit, doch es gibt auch andere Mittel. Ein gutes Systemdesign ist wichtig; das Vermeiden von Systemkomplexität kann Ausfallzeiten erheblich reduzieren, schlicht indem unnötige Risiko- und Schwachstellenquellen beseitigt werden. Auch der Einsatz hochwertiger Hardware und Software ist von Bedeutung – denn minderwertige Hardware, die redundant ausgelegt ist, fällt oft ebenso häufig aus wie nicht-redundante Hardware der Enterprise-Klasse. Eine schnelle Lieferkette für Ersatzteile kann ein bedeutender Faktor sein, häufig in Form von Hardware-Lieferantenverträgen mit vierstündiger Ersatzteil-Reaktionszeit. Diese Liste ließe sich fortsetzen. Wir werden uns auf die Redundanz konzentrieren, da hier die Wahrscheinlichkeit am größten ist, dass wir angesichts der Angst vor Ausfallzeiten zu viel Geld ausgeben.

Da wir nun die Kosten kennen, die entstehen, wenn keine angemessene Redundanz vorhanden ist, können wir diese potenziellen Kosten den sehr realen, im Voraus anfallenden Kosten für die Bereitstellung dieser Redundanz gegenüberstellen. Manche Komponenten, etwa Festplatten, fallen mit hoher Wahrscheinlichkeit aus und lassen sich relativ einfach und kostengünstig redundant auslegen – wodurch ein erhebliches Risiko entschärft und zur Nebensache wird. Diese stehen tendenziell zuerst im Fokus. Doch es gibt viele Bereiche der Redundanz zu berücksichtigen, etwa Netzteile, Netzwerk-Hardware, Internetverbindungen und ganze Systeme – die häufig durch moderne Virtualisierungstechniken redundant ausgelegt werden, welche neue Wege zur Redundanz eröffnen, die vielen kleineren Unternehmen zuvor nicht zugänglich waren.

Neue Arten der Redundanz, insbesondere solche, die durch Virtualisierung verfügbar werden, sind häufig ein Punkt, an dem Unternehmen versucht sein werden, im Verhältnis zu den Risiken von Ausfallzeiten zu viel – mitunter dramatisch zu viel – auszugeben. Schlimmer noch: In dem Bestreben, die neuesten Trends in Sachen Redundanz zu erwerben, setzen Unternehmen diese Techniken oft falsch um und führen dadurch tatsächlich ein größeres Risiko und eine höhere Wahrscheinlichkeit von Ausfallzeiten herbei, als wenn sie gar nichts unternommen hätten. Es wird zunehmend üblich zu hören, dass Unternehmen Zehntausende oder sogar Hunderttausende von Dollar ausgeben, um einen monetären Ausfallschaden von nur wenigen tausend Dollar abzuwenden – und bei diesem Versuch dann scheitern und ihr Risiko ohnehin erhöhen.

Bei der Einschätzung der Kosten für die Risikominderung ist es entscheidend zu bedenken, dass die Risikominderung eine garantierte Ausgabe darstellt, während ein Risiko lediglich ein Risiko bleibt. Ähnlich wie bei einer Kfz-Versicherung, bei der Sie eine garantierte geringe monatliche Gebühr zahlen, um eine massive, ungeplante Ausgabe abzuwenden. Die Theorie der Risikominderung besteht darin, jetzt einen vergleichsweise geringen Geldbetrag aufzuwenden, um das Risiko einer hohen Ausgabe zu einem späteren Zeitpunkt zu verringern; doch wenn die Kosten der Risikominderung zu hoch werden, ist es besser, die Risiken schlicht in Kauf zu nehmen.

Systeme können selbstverständlich einzeln bewertet werden. Eine Webpräsenz und ein Telefonsystem jederzeit verfügbar zu halten, ist weitaus wichtiger als ein E-Mail-System, bei dem selbst stundenlange Ausfallzeiten für externe Kunden kaum wahrnehmbar sein dürften. Nur für den Schutz jener Systeme zu zahlen, bei denen die Kosten von Ausfallzeiten erheblich sind, ist eine wichtige Strategie.

Seien Sie nicht überrascht, wenn sich herausstellt, dass über eine sehr grundlegende Redundanz hinaus (etwa gespiegelte Festplatten) ein einfaches Netzwerkdesign mit guten Backups und Wiederherstellungsplänen sowie einem guten Hardware-Supportvertrag alles ist, was für die Mehrheit, wenn nicht sogar für alle Ihrer Systeme erforderlich ist. Indem Sie die Komplexität Ihrer Systeme verringern, machen Sie diese von Natur aus stabiler und leichter zu verwalten – und senken so die Kosten Ihrer IT-Infrastruktur weiter.

Verschlagwortetcost analysis downtime redundancy reliability risk uptime

Weitere Lektüre.

Der Gesellschaftsvertrag des Verkaufs

Wann sollte man Hochverfügbarkeit in Betracht ziehen?

Long-Term-Support-Releases neu überdenken