Kosten und Nutzen müssen in der Balance sein Was bedeutet Redundanz im Datacenter?
Von Jürgen Höfling 6 min Lesedauer
Anbieter zum Thema
Rechenzentren sind die Basis der Digitalwirtschaft. Insofern sind Ausfallzeiten besonders kritisch. Deshalb müssen Redundanzen vorgehalten werden, aber diese sind nicht billig und sollten deshalb intelligent geplant sein.
Ausfallzeiten bei Rechenzentren sind ärgerlich und kostspielig, schädigen das Geschäft und führen schlimmstenfalls in den geschäftlichen Exitus. Insofern muss es oberste Maxime sein, solche Ausfallzeiten möglichst gering zu halten oder überhaupt ganz zu vermeiden.
Vermieden werden können Ausfallzeiten dadurch, dass man dauerhaft, temporär oder mit lokalen oder auch funktionalen Schwerpunkten Reserven bereithält. Solche Reserven sind nichts anderes als Überkapazitäten, auch wenn sie gemeinhin Redundanzen genannt werden, und solche Überkapazitäten erfordern erheblichen Finanz- und Personalaufwand.
Bei der Planung von Rechenzentrums-Redundanzen geht es insofern darum, eine möglichst intelligente Balance zwischen einer ganzen Reihe von Parametern zu finden:
- Wahrscheinlichkeit eines Ausfalls
- Art des Ausfalls (ganzes Rechenzentrum oder nur einzelne Komponenten, Kausalstränge, ....)
- Kosten des jeweiligen Ausfalltyps
- Pönalen, die aufgrund der abgeschlossenen Service-Level-Verträge anfallen
- Art der Daten, die im Rechenzentrum verarbeitet werden
- eventuell vorhandene Abdeckung durch einschlägige Versicherungen
- Kosten des jeweiligen Redundanztyps, den man in Aussicht genommen hat.
Was man sich alles an Redundanzmaßnahmen denken kann
Je mehr Details man bei der Risiko-Analyse berücksichtigen muss oder will, desto komplexer und komplizierter wird die Abwägung zwischen den (geschätzten) Kosten für Schäden bei einem Ausfall und den (tatsächlichen) Kosten für Vorsorgemaßnahmen. Komplexitätsreduktion ist deshalb unabdingbar, um überhaupt noch Entscheidungen treffen zu können. Andererseits kann man die Komplexität der Risiko-Analyse nicht beliebig reduzieren, weil dann die Kosten ins Unermessliche steigen, sprich man kann nicht alles pauschal und „auf Verdacht“ in zwei- oder gar dreifacher Ausfertigung vorhalten, um für (fast) alle möglichen Schadensfälle gewappnet zu sein.
Man kann die Vorkehrungen auch noch weiter treiben, indem man beispielsweise vorschreibt, dass zumindest eines der gespiegelten Rechenzentren Hunderte oder gar Tausende von Kilometer vom „Original“ entfernt sein muss (Georedundanz) und / oder dass eines der Rechenzentren mit Komponenten ausgestattet ist, die technisch anders aufgebaut sind als die Komponenten des Originals, aber dieselbe Funktion erfüllen können. Damit fängt man – so die Idee dieser „Redundanz durch Diversität“ – eventuelle Ausfälle durch konzeptuelle Gerätefehler ab.
Oder man schreibt vor, dass eines der (redundanten) Rechenzentren mit anderer Energie versorgt werden (können) muss als das andere, um bei Ausfall oder Knappheit einer Energieform eine sichere Alternative zu haben oder man verlangt für das Ersatzrechenzentrum eine spezielle Einrüstung (Atomschutzbunker etc.), damit der Betrieb auch bei kriegerischen Auseinandersetzungen oder Naturkatastrophen gesichert ist. Oder, oder, oder….
Keine Frage: eine jede solcher Maßnahmen kann für bestimmte Einzelfälle im Rechenzentrumsbereich gerechtfertigt sein. Die Kosten für solche Vorkehrungen sind aber immens und kommen sicher nicht für die Mehrzahl der Rechenzentren in Frage. Freilich ist es aufgrund der geopolitischen Entwicklungen weltweit und der Klimaproblematik (ebenfalls weltweit) sehr wahrscheinlich, dass immer mehr Rechenzentren in Richtung (teurer) Hochsicherheits-Rechenzentren geplant werden müssen.
Das N-Schema für Rechenzentrums-Redundanz
Klar ist, dass bei der (Überkapazitäts-) Planung für ein Rechenzentrum immer alle Komponenten im Blick ein müssen: von den Rechnereinheiten (Server, Speicher, Netze, Software) über die Kühleinheiten und die Stromversorgung bis zu eventuellen Verbindungen zu anderen Infrastruktureinrichtungen wie Nah- und Fernwärmenetzen, in denen die Rechenzentrumsabwärme weiter verwertet wird.
Das Schema, mit dem der Umfang der Redundanz eines Rechenzentrums gekennzeichnet wird, umfasst immer dieses ganze Bündel an Komponenten. Die entsprechenden Redundanzstufen gehen von der Variablen N aus, dessen maximaler Wert die Mindestinfrastruktur bezeichnet, die für den Betrieb eines Rechenzentrums erforderlich ist. Wenn ein Rechenzentrum beispielsweise vier USV-Einheiten für den Betrieb benötigt, entspricht N vier Einheiten. N gilt aber auch für andere Komponenten wie Kühlsysteme, Netzwerksysteme, Speicher und Server.
- Die niedrigste Redundanzstufe ist N+1, was bedeutet, dass ein Rechenzentrum über eine zusätzliche Komponente verfügt. Eine N+2-Architektur bietet zwei redundante Komponenten für einen bestimmten N-Wert.
- N+1 ist eine häufigere Architektur als N+2, da sie Redundanz ermöglicht und die Hardwarekosten geringhält. Viele Unternehmen bevorzugen N+1 aus Gründen dieser Kosteneffizienz, da sie weniger Hardware kaufen müssen.
- 2N steht für hundertprozentige Redundanz, bei der die Rechenzentren über ein identisches Backup ihrer benötigten Komponenten verfügen. In einem Rechenzentrum, in dem N die Anzahl der USV-Einheiten ist, bedeutet 2N, dass doppelt so viele vorhanden sind. Einige Architekturen gehen sogar noch weiter und bieten 2N+1, was einer vollständigen Sicherung plus einer weiteren Komponente entspricht.
- Außerdem gibt es auch die Redundanz N-1, was bedeutet, dass ein Rechenzentrum nicht mit maximaler Kapazität gefahren wird, sodass bei Ausfällen Reserven innerhalb der Kapazität N aktiviert werden können.
Rechenzentrumsebenen (Data Center Tiers)
Das eben beschriebene Schema auf der Basis der Maimalkapazität N ist sehr griffig, liefert allerdings keine wirkliche Handhabe, mit der man einen möglichst ausfallsicheren Rechenzentrums-Betrieb anhand von praxisgerechten Parametern organisieren kann. Gesucht wird deshalb ein Rahmen, der nicht die Überkomplexität der am Anfang dieses Artikels aufgeführten Parametersammlung hat, aber auch nicht die Unterkomplexität des eben dargestellten N-Systems.
In gutes Mittelding hinsichtlich der Komplexität einerseits und der praktischen Aussagekraft andererseits ist das vom Uptime Institute entwickelte System der verschiedenen Rechenzentrums-Ebenen (Tier 1 bis 4). Rechenzentren der Stufe I (Tier 1) sind die einfachsten.
Sie haben eine ausreichend redundante Infrastruktur für einen effizienten Betrieb, sind aber durch manche Störfälle schlicht überfordert. Sie können Unterbrechungen durch menschliches Versagen verkraften, nicht aber einen unerwarteten Ausfall. Nicht zuletzt müssen sie für Wartungsarbeiten abgeschaltet werden. Sie haben also nicht das, was man Wartungsredundanz nennt.
Ein Tier-2-Rechenzentrum verfügt über ein redundantes Kühl- und Stromversorgungssystem und bietet eine längere Betriebszeit. Mitarbeiter können Komponenten ausbauen, ohne das Rechenzentrum abzuschalten, aber bei größeren Ausfällen ist die Anlage immer noch offline.
Bei einem Rechenzentrum der Stufe 3 hat ein Ausfall an einem beliebigen Punkt keine Auswirkungen auf den Betrieb des Rechenzentrums. Abschaltungen sind nicht erforderlich, um Geräte zu ersetzen oder zu warten.
Rechenzentren der Stufe 4 verfügen über mehrere unabhängige und isolierte Sicherungssysteme, die ein Redundanzniveau von 2N oder 2N+ erfordern. Ausfallzeiten sind in diesen Rechenzentren unwahrscheinlich, ihre Wartung ist jedoch kostspielig.
Modularisierung und Redundanz
Noch einmal zurück zum N-Schema: dieses Redundanz-Schema ist nicht so unflexibel, wie es auf den ersten Blick aussieht. Durch begleitende Maßnahmen wie beispielsweise eine stärkere Modularisierung erhält man nämlich einen stärkeren Hebel, um Redundanz zu erreichen. Fallen mehr Systeme aus als für das jeweilige Redundanzmodell angenommen, erhöht eine modulare Architektur nämlich die verbleibende Restkapazität.
Beispielsweise stehen bei einer (N+2)-Redundanz mit N=1 insgesamt drei Systeme zur Verfügung. Fallen bis zu zwei Systeme aus, stellt das verbleibende dritte die erforderliche Leistung vollständig bereit. Fällt nun auch noch das dritte System aus, steht aber überhaupt keine Leistung mehr zur Verfügung.
Ganz anders ist das bei (N+2)-Redundanz und N=4. Hier stehen insgesamt sechs Systeme zur Verfügung. Bis zu einem Ausfall von zwei Systemen können vom verbleibenden Rest immer noch die erforderlichen 100 Prozent Leistung abgerufen werden. Fällt nun ein drittes System aus, sinkt die bereitgestellte Leistung nicht wie bei N=1 auf 0 Prozent, sondern nur auf 75 Prozent.
Da man davon ausgehen darf, dass das normal laufende System in der Regel mit weniger als dem Maximalwert von N auskommt, dürften die eben genannten 75 Prozent oft ausreichen, dass das System auch in dem beschriebenen Havariefall völlig normal weiterlaufen kann. Andernfalls kann man sich mit Lastverteilung behelfen.
Redundanz ist mehr als das Hinzufügen von Komponenten
Redundanzen sind zum einen als Reserve nützlich, um Unterbrechungen, die durch Fehlbedienung oder durch plötzlichen Systemausfall auftreten, minimal oder gänzlich unsichtbar zu halten, zum anderen helfen sie auch dabei, dass Systeme geräuschlos erweitert werden können, ohne dass sie heruntergefahren werden müssen.
Dabei muss allerdings die Architektur der Redundanz für einen solchen Erweiterungsfall ausgelegt sein. Die Planung von Redundanz im Rechenzentrum ist weit mehr als das bloße Hinzufügen von weiteren Komponenten. Beim Hinzufügen muss immer eine intelligente und zukunftsgerichtete Architektur als Basis vorhanden sein.
(ID:49689067)