Wie Sie das Beste aus Ihrer umgekehrten Pyramide des Untergangs machen

Die 3-2-1- oder umgekehrte Pyramide des Untergangs als Architektur ist aus vielen Gründen zum Außenseiter der IT-Branche geworden. Bedauerlicherweise erfahren viele Unternehmen erst von den mit diesem Design verbundenen Gefahren, nachdem die Komponenten eingetroffen sind und das Geld die Konten verlassen hat.

Manche Unternehmen haben Glück und erkennen diesen Fehler früh genug, um ihre Anschaffungen zurückgeben und mit einer ordentlichen Design- und Entscheidungsphase vor der Beschaffung neuer Hard- und Software von vorne beginnen zu können. Dies ist jedoch ein Idealfall und eine sehr seltene Situation. Bestenfalls können wir normalerweise mit Wiedereinlagerungsgebühren rechnen, und weitaus häufiger lässt sich die Ausrüstung überhaupt nicht zurückgeben oder die Gebühren sind so hoch, dass es sinnlos wird.

Was die meisten Unternehmen stattdessen bewältigen müssen, ist die Notwendigkeit, künftig „das Beste“ aus der Situation zu machen. Eine der größten Sorgen besteht darin, dass die betroffenen Parteien – seien es die finanziellen Interessenträger, die gerade viel Geld für die neue Hardware ausgegeben haben, oder die technischen Interessenträger, die nun schlecht dastehen, weil sie den Kauf dieser Ausrüstung zugelassen haben – einer emotionalen Reaktion erliegen, die dazu führt, dass sie dem Trugschluss der versunkenen Kosten nachgeben. Es ist von entscheidender Bedeutung, dass diese emotionale, unlogische Reaktion nicht die Oberhand gewinnt, da sie eine kritische Entscheidungsfindung untergraben würde.

Es muss verstanden werden, dass das für die umgekehrte Pyramide des Untergangs ausgegebene Geld bereits ausgegeben und verloren ist. Dass das Geld verschwendet wurde oder wie viel davon verschwendet wurde, ist für die Entscheidungsfindung an diesem Punkt irrelevant. Ob das System ein Geschenk war oder eine Milliarde Dollar gekostet hat, spielt keine Rolle – dieses Geld ist weg, und nun müssen wir mit dem auskommen, was wir haben. Ein möglicher „Kniff“ wäre hier, einen finanziellen Entscheidungsträger wie einen CFO hinzuzuziehen, zu erklären, dass gleich eine emotionale Reaktion auf bereits ausgegebenes Geld erfolgen wird, und den Trugschluss der versunkenen Kosten zu erörtern, bevor man über das eigentliche Problem spricht, sodass die Beteiligten sich dessen bewusst und logisch sind und die (hoffentlich) für den bestmöglichen Umgang mit einer solchen Situation geschulte Person anwesend und bereit ist, den Emotionen rund um versunkene Kosten zuvorzukommen. Der sorgfältige Umgang mit einer potenziell emotional aufgeladenen Reaktion ist wichtig. Dies ist nicht der Zeitpunkt, um zu versuchen, die finanziellen oder die technischen Fehltritte zu vertuschen, was die emotionale Reaktion gerade hervorruft. Es ist notwendig, dass alle Parteien kommunizieren und distanziert und logisch bleiben, um den Anforderungen gerecht zu werden. Manche Unternehmen gehen damit gut um, viele jedoch nicht und verstricken sich darin, mit bereits getroffenen Fehlentscheidungen weiterzumachen – wahrscheinlich in der Hoffnung, dass nichts Schlimmes passiert und dass sich niemand erinnert oder es bemerkt. Wehren Sie sich gegen diese Reaktion. Jeder hat sie, es ist die natürliche emotionale „Kampf-oder-Flucht“-Reaktion der Amygdala.

Nachdem wir nun bereit sind, gegen die emotionalen Reaktionen auf das Problem anzukämpfen, können wir uns der Frage „Wie geht es von hier aus weiter?“ widmen. Die gute Nachricht ist, dass wir uns in der Regel in der Lage befinden, „zu viel“ statt „zu wenig“ zu haben. Wir haben also die Gelegenheit, ein wenig kreativ zu sein. Glücklicherweise gibt es in der Regel gute Optionen, die es uns ermöglichen, uns in mehrere Richtungen zu bewegen.

Sehr wichtig festzuhalten ist, dass wir ausschließlich Lösungen betrachten, die zuverlässiger und nicht weniger zuverlässig sind als die umgekehrte Pyramide des Untergangs, die wir ersetzen wollen. Eine IPOD ist ein sehr fragiles und gefährliches Design, und wir könnten ausführlich Konzepte wie Risikoanalyse, einzelne Ausfallpunkte (Single Points of Failure), die Trugschlüsse falscher Redundanz, die Betrachtung von Redundanz statt Zuverlässigkeit, Abhängigkeitsketten usw. darlegen. Doch was für alle Parteien absolut entscheidend zu verstehen ist: Ein einzelner Server, der mit lokalem Speicher betrieben wird, ist zuverlässiger als die gesamte IPOD-Infrastruktur es wäre. Das ist so wichtig, dass es noch einmal gesagt werden muss: Wenn ein einzelner Server „Standardverfügbarkeit“ bietet, liegt die IPOD darunter. Riskanter. Sollte zu diesem Zeitpunkt irgendjemand einen „Mangel an Redundanz“ oder einen „Mangel an Komplexität“ in den resultierenden Lösungen fürchten, müssen wir hierauf zurückkommen – nichts, was wir besprechen werden, ist so riskant wie das, was bereits entworfen und gekauft wurde. Falls es irgendeine Angst vor Risiken für die Zukunft gibt, hätte die Angst größer sein müssen, bevor wir die Zuverlässigkeit des Designs verbessert haben. Dies kann gar nicht genug betont werden. IPODs verkaufen sich, weil sie diejenigen, die nicht in Risikoanalyse geschult sind, leicht verwirren und zuverlässig erscheinen, obwohl sie in Wirklichkeit alles andere als das sind.

Wenn man das Obige versteht und eine Technik namens „Rücklesen“ der akzeptierten IPOD-Architektur anwendet, zeigt sich, dass das betreffende Unternehmen zum Zeitpunkt des Kaufs der IPOD bereit war, keine Hochverfügbarkeit (oder nicht einmal Standardverfügbarkeit) zu haben. Vielleicht glaubten sie, diese zu erhalten, doch die Architektur konnte sie nicht bieten, und so haben wir künftig die Möglichkeit, mit nichts weiter als einem einzelnen Server „auszukommen“, der auf seinem eigenen lokalen Speicher läuft. Das ist einfach und unkompliziert und verbessert nahezu jeden Aspekt des beabsichtigten IPOD-Designs. Der Betrieb und die Wartung sind kostengünstiger, es ist oft schneller und deutlich weniger komplex, während es zugleich etwas zuverlässiger ist.

Doch wahrscheinlich wird es nicht unsere beste Option sein, einfach auf einen einzelnen Server herunterzugehen und zu hoffen, „anderswo“ Verwendungen für die übrige gekaufte Ausrüstung zu finden. In Situationen, in denen die IPOD nur für eine einzelne Arbeitslast oder eine Reihe von Arbeitslasten gedacht war und auch andere Bereiche des Unternehmens Bedarf an Ausrüstung haben, kann es sehr vorteilhaft sein, für die beabsichtigte IPOD-Arbeitslast den Ansatz eines „einzelnen Servers“ zu wählen und die verbleibende Ausrüstung anderweitig im Unternehmen einzusetzen.

Der gängigste Ansatz zur Umnutzung eines IPOD-Stacks besteht darin, die zwei (oder mehr) Compute-Knoten so umzukonfigurieren, dass sie zu vollständigen Stack-Knoten mit eigenem Speicher werden. Dieser Schritt erfordert möglicherweise keinerlei Anschaffungen – abhängig davon, welcher Speicher bereits gekauft wurde –, eine Verlagerung von Laufwerken zwischen den Systemen oder häufig die relativ geringe Anschaffung zusätzlicher Festplatten zu diesem Zweck.

Diese Knoten können dann in eines von zwei Hochverfügbarkeitsmodellen konfiguriert werden. In der Vergangenheit war eine aus Kostengründen gängige Designentscheidung die Verwendung eines asynchronen Replikationsmodells (oft als der Veeam-Ansatz bekannt), das virtuelle Maschinen zwischen den Knoten repliziert und es ermöglicht, VMs sehr schnell hochzufahren, sodass eine Ausfallzeit vom Moment des Compute-Knoten-Ausfalls bis zur Wiederherstellung von nur wenigen Minuten erreicht werden kann.

Heute ist vollständig synchrone Fehlertoleranz so häufig kostenlos verfügbar, dass sie das asynchrone Modell in nahezu allen Fällen praktisch abgelöst hat. In diesem Modell wird der Speicher vollständig in Echtzeit zwischen den Compute-Knoten repliziert, sodass ein Failover sofort statt mit wenigen Minuten Verzögerung erfolgen kann, und das ohne Datenverlust statt mit einem kleinen Datenverlustfenster (z. B. einem RPO von null).

An diesem Punkt scheint es häufig vorzukommen, dass Menschen auf die Replikation mit der Angst vor einem Verlust an Speicherkapazität reagieren, der durch die Replikation verursacht wird. Das trifft natürlich zu. Es muss verstanden werden, dass es genau diese Replikation – die im ursprünglichen IPOD-Design fehlte – ist, die das solide Fundament für hohe Zuverlässigkeit liefert. Wird diese Replikation ausgelassen, ist Hochverfügbarkeit ein unerreichbarer Traum, und einzelne Compute-Knoten, die lokalen Speicher in einem „eigenständigen“ Modus nutzen, sind die zuverlässigste mögliche Option. Hochverfügbarkeitslösungen stützen sich auf Replikation und Redundanz, um die notwendige Zuverlässigkeit aufzubauen, die für Hochverfügbarkeit erforderlich ist.

Damit ist die Frage geklärt, was mit unseren Compute-Knoten zu tun ist, doch es bleibt die Frage, was wir mit unserem externen, gemeinsam genutzten Speichergerät anfangen können – dem einzelnen Ausfallpunkt oder der „Spitze“ des umgekehrten Pyramidendesigns. Um diese Frage zu beantworten, sollten wir zunächst betrachten, worum es sich bei diesem Speicher handeln könnte.

Es gibt drei gängige Typen von Speichergeräten, die in einem umgekehrten Pyramidendesign verwendet würden: DAS, SAN und NAS. Wir können DAS und SAN zusammenfassen, da sie beide zwei verschiedene Ausprägungen von Blockspeicher sind und in unserer Betrachtung im Wesentlichen austauschbar verwendet werden können – sie unterscheiden sich lediglich durch das Vorhandensein von Switching, das in unseren Designs nach Bedarf hinzugefügt oder entfernt werden kann. NAS unterscheidet sich dadurch, dass es sich um Dateispeicher und nicht um Blockspeicher handelt.

In beiden Fällen, Block- (DAS oder SAN) oder Datei- (NAS) Speicher, ist eine der häufigsten Verwendungen für dieses nun überflüssige Gerät die als Sicherungsziel für unsere neue Virtualisierungsinfrastruktur. In vielen Fällen mag das Gerät für diese Aufgabe überdimensioniert sein – in der Regel mit mehr Leistung und weit mehr Funktionen als für ein einfaches Sicherungsziel benötigt –, doch guter Sicherungsspeicher ist für jede kritische Geschäftsinfrastruktur wichtig, und ein Fehler in Richtung Überdimensionierung ist nicht unbedingt etwas Schlechtes. Unternehmen versuchen oft, bei ihren Sicherungsinfrastrukturen zu sparen, und dies ist eine Gelegenheit, kräftig in sie zu investieren, ohne zusätzliches Geld auszugeben.

In der gleichen Richtung wie Sicherungsspeicher könnte das externe Speichergerät als Archivspeicher oder als andere „niedrigere Speicherebene“ umgenutzt werden, bei der Hochverfügbarkeit nicht gerechtfertigt ist. Dies ist ein selteneres Vorgehen, in der Regel deshalb, weil jedes Unternehmen ein gutes Sicherungssystem benötigt, aber nur manche eine Möglichkeit haben, eine Archivspeicherebene zu nutzen.

Über diese beiden gängigen und universellen Speichermodelle hinaus besteht ein häufiger Anwendungsfall für externe Speichergeräte – insbesondere, wenn das Gerät ein NAS ist – darin, es in seiner ursprünglichen Funktion als von der Virtualisierungsinfrastruktur getrennten Dateiserver zu nutzen. Für viele Unternehmen ist das Bereitstellen von Dateien nicht so verfügbarkeitskritisch wie die zentrale Virtualisierungsinfrastruktur, und Sicherungen sind weitaus einfacher zu pflegen und zu verwalten. Indem man das Bereitstellen von Dateien auf ein bereits gekauftes NAS-Gerät auslagert, kann man die Anforderungen an die Dateibereitstellung aus der Virtualisierungsinfrastruktur sowohl dadurch verringern, dass die Anzahl der dort zu betreibenden VMs reduziert wird, als auch dadurch, dass man einen der typischerweise größten Speichernutzer auf ein separates Gerät verlagert, was sowohl die Leistungsanforderungen der Virtualisierungsinfrastruktur als auch deren Kapazitätsanforderungen senken kann. Auf diese Weise reduzieren wir potenziell die Kosten für die Beschaffung notwendiger zusätzlicher Festplatten für den lokalen Speicher der Compute-Knoten, wie zuvor erwähnt, und daher kann dies für viele Unternehmen eine sehr beliebte Methode sein, um den Umnutzungsbedarf zu decken.

Jedes Unternehmen ist einzigartig, und es gibt potenziell viele Stellen, an denen überschüssige Speicherausrüstung wirksam genutzt werden könnte – von Laboren über Archive bis hin zu gestaffeltem Speicher. Mit ein wenig Kreativität und Denken über den Tellerrand hinaus lässt sich Ihr einzigartiger Bestand an verfügbarer Ausrüstung und der einzigartige Bedarf und die Anforderungen Ihres Unternehmens nutzen, um den besten Ort zu finden, an dem diese Ausrüstung eingesetzt werden kann, wo sie von der zentralen, kritischen Virtualisierungsinfrastruktur entkoppelt ist, aber dennoch einen Mehrwert für die Organisation bringen kann. Indem wir die umgekehrte Pyramide des Untergangs vermeiden, können wir den maximalen Wert aus der Ausrüstung erzielen, in die wir bereits investiert haben, statt frische technische Schulden zu erzeugen, die wir dann unnötigerweise wieder abarbeiten müssen.

Verschlagwortetinverted pyramid patterns system design

Weitere Lektüre.

Die Kommoditisierung der Architektur

Die Rolle des Dell VRTX verstehen

Was mache ich jetzt? Planung für Designänderungen