Warum es in der IT keine groß angelegten Studien gibt

IT-Fachleute fragen täglich danach, und doch existiert keine einzige – groß angelegte Risiko- und Leistungsstudien für IT-Hardware und -Software. Dies deckt ein breites Spektrum an Möglichkeiten ab, gängige Beispiele sind jedoch Ausfallraten zwischen verschiedenen Servermodellen, Festplatten, Betriebssystemen, RAID-Array-Typen, Desktops, Laptops, was auch immer. Und doch sind, ungeachtet der hohen Nachfrage nach solchen Daten, keine verfügbar. Wie kann das sein?

Nicht alle Fälle sind natürlich gleich, doch im Großen und Ganzen kommen drei wirklich bedeutende Faktoren ins Spiel, die verhindern, dass diese Art von Daten in das Fachgebiet gelangt. Dies sind die hohen Kosten der Durchführung einer Studie, der lange für eine Studie erforderliche Zeitrahmen und ein fehlender Anreiz, diese Daten zu erzeugen und/oder mit anderen Unternehmen zu teilen.

Die Kosten sind bei Weitem der größte Faktor. Könnten die Kosten groß angelegter Studien überwunden werden, ließen sich für alle anderen Faktoren Lösungen finden. Doch leider liegt es in der Natur einer groß angelegten Studie, dass sie kostspielig sein wird. Als Beispiel können wir uns die Zuverlässigkeitsraten von Servern ansehen.

Um die Ausfallraten eines Servers zu bestimmen, benötigen wir eine große Zahl von Servern, um diese Daten zu erheben. Dies mag wie ein extremes Beispiel erscheinen, doch Server-Ausfallraten zählen zu den am häufigsten angefragten Kennzahlen aus groß angelegten Studien, und daher ist das Beispiel ein wichtiges. Für eine sehr kleine Studie bräuchten wir vielleicht einige Hundert Server, doch um statistisch signifikante Daten zu erhalten, bräuchten wir wahrscheinlich Tausende von Servern. Wenn wir annehmen, dass ein einzelner Server fünftausend Dollar kostet, was ein vergleichsweise einsteigerorientierter Server wäre, kommen wir problemlos auf fünfundzwanzig Millionen Dollar an Ausrüstung! Und das reicht gerade einmal aus, um einen einigermaßen kleinen Test (nur fünftausend Server) eines recht kostengünstigen Geräts durchzuführen. Sprächen wir von Enterprise-Servern, lägen wir leicht bei dreißig- oder gar fünfzigtausend Dollar pro Server, was die Kosten sogar auf eine Viertelmilliarde Dollar treiben würde.

Diese Kosten gelten nun natürlich für den Test einer einzigen Konfiguration eines einzigen Servermodells. Damit eine Studie aussagekräftig ist, bräuchten wir vermutlich viele verschiedene Servermodelle. Vielleicht mehrere von jedem Anbieter, um unterschiedliche Produktlinien und Funktionen zu vergleichen. Vielleicht viele verschiedene Anbieter. Es ist leicht zu erkennen, wie schnell die Kosten einer Studie unmöglich groß werden.

Dies ist jedoch erst der Anfang der Kosten. Eine gute Studie durchzuführen erfordert sorgfältig kontrollierte Umgebungen auf dem Niveau der besten Rechenzentren, um Umwelteinflüsse so weit wie möglich zu isolieren. Das bedeutet hochzuverlässige Stromversorgung, Kühlung, Luftströmung, Feuchtigkeitsregelung, Vibrations- und Staubkontrolle. Gute Einrichtungen dieser Art sind sehr teuer und der Grund, warum viele Unternehmen nicht für sie zahlen, selbst für wertvolle Produktiv-Workloads. In einer großen Studie könnten diese Kosten im Verlauf der Studie leicht die Kosten der Ausrüstung selbst übersteigen.

Dann müssen wir natürlich noch den Bedarf an speziellen Sensoren und Tests berücksichtigen. Was genau gilt als Ausfall? Selbst bei Produktivsystemen besteht hierüber häufig Uneinigkeit. Ist eine ausfallende Festplatte in einem Array ein Ausfall, selbst wenn das Array nicht ausfällt? Ist ein vorhergesagter Ausfall ein Ausfall? Wenn man in einer Studie mit Festplattenausfällen umgeht, wie berücksichtigt man menschliche Komponenten wie den Festplattenaustausch, der möglicherweise nicht einheitlich durchgeführt wird? Es gibt Wege, damit umzugehen, doch sie erhöhen die Komplexität und bewirken, dass die Studien sich von realen Daten weg hin zu für eine Studie konstruierten Daten verzerren. Studienrichtlinien aufzustellen, die für Endanwender anwendbar und nützlich sind, ist weit schwieriger, als es scheint.

Und der größte Kostenfaktor: die manuelle Arbeit. Die Aufrechterhaltung einer Umgebung für eine große Studie erfordert Humankapital, das den Kosten der Studie selbst gleichkommen kann. Es braucht eine große Zahl von Menschen, um eine Studienumgebung zu unterhalten, die Studie selbst durchzuführen, sie zu überwachen und die Daten zu erheben. Alles in allem sind die Kosten in der Regel schlicht unmöglich aufzubringen.

Natürlich könnten wir den Test stark zurückfahren, nur eine Handvoll Server und nur zwei oder drei Modelle betreiben, doch der Wert des Tests sinkt rapide und es droht, mit Ergebnissen zu enden, die niemand verwenden kann, während dennoch eine große Summe Geld ausgegeben wurde.

Das zweite unüberwindbare Problem ist die Zeit. Die meisten Dinge müssen über einen längeren Zeitraum hinweg auf Ausfallraten getestet werden, und da Ausrüstung in der IT in der Regel darauf ausgelegt ist, über Jahrzehnte zuverlässig zu funktionieren, erfordert das Erheben von Daten zu Ausfallraten viele Jahre. Mean-Time-to-Failure-Werte sind nur begrenzt wertvoll; Mean Time Between Failures sowie Ausfalltypen, -modi und Statistiken zu diesen Ausfällen sind sehr wichtig, damit eine Studie nützlich ist. Das bedeutet, dass eine Studie, um wirklich nützlich zu sein, sehr lange laufen muss, wodurch immer höhere Kosten entstehen.

Doch das ist nicht das größte Problem. Das weitaus größere Problem ist, dass, damit eine Studie genug Zeit hat, um nützliche Ausfallzahlen zu erzeugen – selbst wenn diese Zahlen “live” ausgegeben würden, sobald sie anfallen – es bereits zu spät wäre. Die betreffende Ausrüstung wäre bereits gealtert und im Produktivmarkt der Zeit für einen Austausch nahe, sobald die Studie wirklich nützliche frühe Ergebnisse hervorbrächte. Häufig wird Produktivausrüstung nur für eine Gesamtlebensdauer von drei bis fünf Jahren angeschafft. Ergebnisse auch nur ein Jahr nach Beginn dieser Spanne zu erhalten, hätte kaum Wert. Und neue Produkte könnten jene in der Studie sogar noch schneller ersetzen, als die Produkte auf natürliche Weise altern, was die Studie nur aus historischer Perspektive wertvoll macht, ohne jeden Nutzen bei der Bestimmung von Entscheidungen in einer produktiven Entscheidungsrolle – die Ergebnisse wären bereits zu alt, um nützlich zu sein, sobald sie verfügbar wären.

Der letzte wesentliche Faktor ist ein fehlender Anreiz, vorhandene Daten denjenigen zur Verfügung zu stellen, die sie benötigen. Zwar existieren nur wenige Datenquellen – einige wenige gibt es –, doch nahezu alle sind unvollständig und existieren, damit große Anbieter ihre eigene Gerätequalität, Ausfallraten und dergleichen messen können. Diese werden selten in kontrollierten Umgebungen erstellt und beruhen häufig auf Daten, die aus dem Feld erhoben wurden. In vielen Fällen können diese Daten sogar kundenvertraulich und ohnehin rechtlich nicht weitergebbar sein.

Doch Anbieter, die Daten erheben, tun dies nicht auf einheitliche, überwachte Weise, sodass eine Weitergabe dieser Daten ihnen sehr abträglich sein könnte, weil es keine Gewähr dafür gibt, dass gleichwertige Daten ihrer Wettbewerber existieren würden. Unkontrollierte Statistiken dieser Art würden weder dem Markt noch den Anbietern, die über sie verfügen, einen echten Nutzen bieten, sodass Anbieter stark dazu angereizt sind, solche Daten streng unter Verschluss zu halten.

Die seltene Ausnahme bilden einige Hardware-Studien von Anbietern wie Google und BackBlaze, die über eine große Zahl von Festplatten der Consumer-Klasse in vergleichsweise kontrollierten Umgebungen verfügen und für ihre eigenen Zwecke Ausfallraten erheben, dabei aber kaum oder kein Risiko haben, dass ihre eigenen Wettbewerber diese Daten nutzen, jedoch durchaus einen Public-Relations-Wert darin sehen, und so gelegentlich eine Studie zur Hardware-Zuverlässigkeit in begrenztem Umfang veröffentlichen. Diese Studien werden von der Branche gierig verschlungen, obwohl sie in der Regel relativ wenig Wert enthalten, da ihre Daten alt und unter unbekannten Bedingungen und Schwellenwerten erhoben sind und oft keine statistisch aussagekräftigen Daten für einen Produktvergleich enthalten und bestenfalls allgemeine branchenweite statistische Trends aufweisen, die allenfalls für die Vorhersage künftiger Zuverlässigkeitsverläufe einigermaßen nützlich sind.

Die meisten anderen Unternehmen, die groß genug sind, um über interne Zuverlässigkeitsstatistiken zu verfügen, haben diese für ein enges Spektrum an Ausrüstung und betrachten diese Informationen als geschützt, als potenzielles Risiko bei Offenlegung (sie würden wichtige Details architektonischer Umsetzungen preisgeben) und als Wettbewerbsvorteil. Aus diesen Gründen werden sie also nicht geteilt.

Ich hatte tatsächlich das Glück, an einem groß angelegten Speicherzuverlässigkeitstest beteiligt gewesen zu sein und ihn geleitet zu haben, der einigermaßen informell, aber sehr wertvoll an über zehntausend Enterprise-Servern über acht Jahre hinweg durchgeführt wurde und in achtzigtausend Server-Jahren Studienzeit resultierte – eine seltene Gelegenheit. Doch was in dieser Studie geschlussfolgert wurde, war, dass sie zwar äußerst wertvoll war, in erster Linie aber zeigte, dass wir bei einer so großen Menge dennoch nicht in der Lage waren, auch nur einen einzigen Ausfall zu beobachten! Das Ausbleiben von Ausfällen war an sich sehr wertvoll. Doch wir waren nicht in der Lage, irgendeine Standardstatistik wie die Mean Time to Failure zu erzeugen. Um die Art von Daten zu erzeugen, die Menschen erwarten, wissen wir, dass wir mindestens Hunderttausende von Server-Jahren benötigt hätten, um irgendeine statistische Signifikanz zu erhalten, doch wir können nicht verlässlich behaupten, dass selbst das ausgereicht hätte. Vielleicht wären Millionen von Server-Jahren notwendig gewesen. Es gibt keine Möglichkeit, das wirklich zu wissen.

Wo uns das hinführt, ist, dass groß angelegte Studien in der IT schlicht nicht existieren und wahrscheinlich auch nie existieren werden. Wenn doch, werden sie vereinzelt und mit ziemlicher Sicherheit durch die Zwänge der Realität verkrüppelt sein. Es gibt keine Möglichkeit, Studien in dem Umfang zu monetarisieren, der nötig wäre, um nützlich zu sein, vor allem weil die Ausfallraten von Enterprise-Ausrüstung so niedrig sind, während die Ausrüstung so teuer ist, sodass Drittfirmen die Kosten für die Bereitstellung dieser Forschung niemals decken können. Als Branche müssen wir akzeptieren, dass diese Art von Daten nicht existiert, und aktiv Alternativen zum Zugang zu solchen Daten verfolgen. Es ist überraschend, dass so viele Menschen im Fachgebiet erwarten, dass diese Art von Daten verfügbar ist, obwohl sie es historisch nie war.

Unsere einzigen wirklichen Optionen angesichts dieses Vakuums bestehen darin, die anekdotische Evidenz zu sammeln, die existiert (eine sehr gefährliche Vorgehensweise, die eine sorgfältige Berücksichtigung des Kontexts erfordert), und die Anwendung von Logik, um Zuverlässigkeitsansätze und -techniken zu beurteilen. Dies ist eine weitreichende Situation, in der uns die Beobachtung zwangsläufig im Stich lässt und nur Logik und Intuition genutzt werden können, um die daraus entstehende Wissenslücke zu füllen.

Verschlagwortetagent buyers agent sellers agent vendor

Weitere Lektüre.

Der Gesellschaftsvertrag des Verkaufs

Wann sollte man Hochverfügbarkeit in Betracht ziehen?

Long-Term-Support-Releases neu überdenken