Netzwerk-RAID-Notationsstandard (SAM RAID Notation)

Da die RAID-Landschaft mit dem Aufkommen von Netzwerk-RAID immer komplexer wird, besteht ein wichtiger Bedarf an einem komplexeren und zugleich prägnanteren Notationssystem für RAID-Level mit einer Netzwerkkomponente.

Herkömmliches RAID wird in einstelliger Notation angegeben, und die verfügbaren Level sind 0, 1, 2, 3, 4, 5, 6, 7. Level 7 ist inoffiziell, wird aber weithin als RAID mit dreifacher Parität akzeptiert (die natürliche Erweiterung von RAID 5 und RAID 6), und RAID 2 sowie RAID 3 werden heute praktisch nicht mehr eingesetzt.

Verschachteltes RAID, also ein RAID-Level innerhalb eines anderen, wird dargestellt, indem einstellige RAID-Level aneinandergereiht werden, etwa RAID 10, 50, 61, 100 usw. Alternativ können diese auch mit einem Pluszeichen zwischen den Leveln geschrieben werden, etwa RAID 1+0, 5+0, 6+1, 1+0+0 usw.

Es gibt zwei wesentliche Probleme mit diesem Notationssystem, abgesehen von dem offensichtlichen Problem, dass nicht alle RAID-Typen oder -Erweiterungen durch das einstellige System abgedeckt werden, wobei viele Aspekte proprietärer RAID-Systeme wie ZRAID, XRAID und BeyondRAID im Notationssystem unberücksichtigt bleiben. Das erste ist das Fehlen einer Notation für Netzwerk-RAID und das zweite das Fehlen einer spezifischen Kennzeichnung der internen RAID-Konfiguration.

Netzwerk-RAID gibt es in zwei zentralen Ausprägungen: synchron und asynchron. Synchrones Netzwerk-RAID verhält sich praktisch identisch zu seinem nicht vernetzten Gegenstück. Asynchrones funktioniert genauso, bringt aber zusätzliche Risiken mit sich, da die Daten zum Zeitpunkt eines Geräteausfalls möglicherweise nicht über alle Geräte hinweg synchronisiert sind. Der Unterschied zwischen beiden muss daher in der Notation sichtbar sein.

Synchrones RAID sollte mit runden Klammern gekennzeichnet werden. Zwei lokale RAID-10-Systeme, die über das Netzwerk gespiegelt werden (etwa mit DRBD), würden also als RAID 10(1) notiert. Das effektive RAID-Level für Risiko- und Kapazitätsberechnungen wäre dasselbe wie bei jedem RAID 101, doch diese Schreibweise teilt allen Beteiligten auf einen Blick mit, dass die Spiegelung über ein Netzwerk erfolgt.

Asynchrones RAID sollte mit eckigen Klammern gekennzeichnet werden. Zwei lokale RAID-10-Systeme, die asynchron über das Netzwerk gespiegelt werden, würden somit als RAID 10[1] notiert, wodurch deutlich wird, dass im System eine riskante Verzögerung besteht.

Es besteht ein zusätzlicher Bedarf für eine andere Art der Replikation auf einer höheren, der Dateisystemebene (etwa mit rsync), die zwar nicht wirklich mit RAID verwandt ist, aber eine ähnliche Funktion für ruhende Daten bietet und in RAID-Diskussionen häufig herangezogen wird, und ich bin der Ansicht, dass Speicher-Ingenieure auch dies eindeutig kennzeichnen können müssen. Diese asynchrone Replikation auf Dateisystemebene kann mit geschweiften Klammern gekennzeichnet werden. Es wird nur eine Notation benötigt, da die Replikation auf Dateisystemebene stets asynchron erfolgt. Als Beispiel würden also zwei RAID-6-Arrays, die automatisch mit einem blockdifferenziellen Dateisystem-Replikationssystem synchronisiert werden, als RAID 6{1} notiert.

Um die RAID-Notation weiter zu vereinfachen und den offensichtlichen Aufwand zu verringern, das Wort “RAID” wiederholt schreiben zu müssen, sowie um uns von den herkömmlichen Ablenkungen darüber zu lösen, wofür das Akronym steht, damit wir uns auf die relevanten Replikationsaspekte konzentrieren können, sollte ein einfaches Präfix “R” verwendet werden. RAID 10 wäre somit einfach R10. Oder eine rein vernetzte Spiegelung wäre R(1).

Damit bleibt ein wesentlicher Aspekt der RAID-Notation zu behandeln, nämlich die Größe der einzelnen Komponenten des Arrays. Häufig ist diese impliziert, aber einige RAID-Level, insbesondere verschachtelte, können Komplexitäten aufweisen, die von der herkömmlichen Notation übersehen werden. Die Kenntnis der Gesamtzahl der Laufwerke in einem Array gibt nicht immer Aufschluss über den Aufbau eines bestimmten Arrays. Bei einem RAID 10 mit 24 Laufwerken wird beispielsweise angenommen, dass es aus zwölf Spiegelpaaren in einem R0-Stripe besteht. Es könnten aber auch acht Sätze aus dreifachen Spiegeln in einem R0-Stripe sein. Oder es könnten sogar sechs Vierfachspiegel sein. Oder vier Sechsfachspiegel. Oder drei Achtfachspiegel. Oder zwei Zwölffachspiegel. Auch wenn die meisten davon äußerst unwahrscheinlich sind, besteht ein Bedarf, dies zu notieren. Für die Satzgröße verwenden wir eine hochgestellte Zahl, um die Größe dieses Satzes anzugeben. In der Regel wird dies nur für einen Aspekt des Arrays benötigt, nicht für alle, da sich die übrigen ableiten lassen; im Zweifelsfall kann es jedoch explizit angegeben werden.

Ein R10-Array mit dreifachen Spiegelsätzen wäre somit R1³0. Wenn keine Möglichkeit besteht, hochgestellte Zahlen zu schreiben, könnte man es auch als R1^3+0 notieren. Diese Notation gibt nicht die vollständige Array-Größe an, sondern nur dessen Konfigurationstyp. Sind alle möglichen hochgestellten Zahlen enthalten, lässt sich die vollständige Array-Größe allein daraus berechnen. Bei einem R10 aus vier Sätzen dreifacher Spiegel könnten wir es R1³0⁴ schreiben, was uns mitteilen würde, dass das gesamte Array aus zwölf Laufwerken besteht – oder in der alternativen Notation R1^3+0^4.

Die Hochstellungsnotation von Sätzen ist nur erforderlich, wenn sie nicht offensichtlich ist. R10 ohne weitere Notation impliziert beispielsweise, dass die R1-Komponente aus Spiegelpaaren besteht. R55 erfordert nahezu immer eine zusätzliche Notation, außer wenn das Array aus lediglich neun Mitgliedern besteht.

Ein weiterer zu berücksichtigender Aspekt ist die Notation der Array-Größe. Diese ist weitaus einfacher als die Hochstellungsnotation und nahezu immer vollkommen ausreichend. Sie erspart es, in Langform “Ein RAID-10-Array mit vier Laufwerken” schreiben zu müssen. Stattdessen können wir hierfür ein Präfix verwenden. 4R10 würde ein RAID-10-Array mit vier Laufwerken bezeichnen.

Um also unser Beispiel von oben zu betrachten: Das RAID 10 mit zwölf Festplatten und den dreifachen Spiegelsätzen könnte als 12R1³0⁴ ausgeschrieben werden. Doch die Verwendung aller drei Zahlen wird redundant. Jede einzelne der Zahlen kann weggelassen werden. Üblicherweise wäre dies die letzte, da sie am wenigsten nützlich ist. Die R1-Satzgröße ist hilfreich, um das grundlegende Risiko zu bestimmen, und die führende 12 dient Kapazitäts- und Leistungsberechnungen sowie der Dimensionierung des Gehäuses und der Beschaffung. Die nachgestellte Vier ergibt sich aus den beiden anderen Zahlen und ist für sich allein praktisch nutzlos. Die beste Schreibweise hierfür wäre also schlicht 12R1³0. Sollte dasselbe Array den gängigen Ansatz mit Spiegelpaaren statt des dreifachen Spiegels verwenden, würden wir einfach 12R10 schreiben, um ein standardmäßiges RAID-10-Array mit zwölf Festplatten zu bezeichnen.

Verschlagwortetnotation raid storage

Weitere Lektüre.

Wenn ein Backup kein Backup ist

Der Wendepunkt des Software-RAID

Neue Hyperkonvergenz, alter Speicher