Was bedeutet Redundanz im Datacenter? (2024)

Kosten und Nutzen müssen in der Balance sein Was bedeutet Redundanz im Datacenter?

19.09.2023 Von Jürgen Höfling 6 min Lesedauer

Anbieter zum Thema

Stäubli Fluid Connectors

Vogel IT-Akademie

DC-Datacenter-Group GmbH

Rechenzentren sind die Basis der Digitalwirtschaft. Insofern sind Ausfallzeiten besonders kritisch. Deshalb müssen Redundanzen vorgehalten werden, aber diese sind nicht billig und sollten deshalb intelligent geplant sein.

Ausfallzeiten bei Rechenzentren sind ärgerlich und kostspielig, schädigen das Geschäft und führen schlimmstenfalls in den geschäftlichen Exitus. Insofern muss es oberste Maxime sein, solche Ausfallzeiten möglichst gering zu halten oder überhaupt ganz zu vermeiden.

Was man sich alles an Redundanzmaßnahmen denken kann

Je mehr Details man bei der Risiko-Analyse berücksichtigen muss oder will, desto komplexer und komplizierter wird die Abwägung zwischen den (geschätzten) Kosten für Schäden bei einem Ausfall und den (tatsächlichen) Kosten für Vorsorgemaßnahmen. Komplexitätsreduktion ist deshalb unabdingbar, um überhaupt noch Entscheidungen treffen zu können. Andererseits kann man die Komplexität der Risiko-Analyse nicht beliebig reduzieren, weil dann die Kosten ins Unermessliche steigen, sprich man kann nicht alles pauschal und „auf Verdacht“ in zwei- oder gar dreifacher Ausfertigung vorhalten, um für (fast) alle möglichen Schadensfälle gewappnet zu sein.

Man kann die Vorkehrungen auch noch weiter treiben, indem man beispielsweise vorschreibt, dass zumindest eines der gespiegelten Rechenzentren Hunderte oder gar Tausende von Kilometer vom „Original“ entfernt sein muss (Georedundanz) und / oder dass eines der Rechenzentren mit Komponenten ausgestattet ist, die technisch anders aufgebaut sind als die Komponenten des Originals, aber dieselbe Funktion erfüllen können. Damit fängt man – so die Idee dieser „Redundanz durch Diversität“ – eventuelle Ausfälle durch konzeptuelle Gerätefehler ab.

Béla Waldhauser über die Besiedlung des Frankfurter Umlands mit Rechenzentren „Wir tragen in der Datacenter-Branche gerne Gürtel und Hosenträger und das am liebsten doppelt und dreifach“

Oder man schreibt vor, dass eines der (redundanten) Rechenzentren mit anderer Energie versorgt werden (können) muss als das andere, um bei Ausfall oder Knappheit einer Energieform eine sichere Alternative zu haben oder man verlangt für das Ersatzrechenzentrum eine spezielle Einrüstung (Atomschutzbunker etc.), damit der Betrieb auch bei kriegerischen Auseinandersetzungen oder Naturkatastrophen gesichert ist. Oder, oder, oder….

Im digitalen Zeitalter essenziell Eingleisig in den Ausfall: Redundante Konnektivität rettet

Keine Frage: eine jede solcher Maßnahmen kann für bestimmte Einzelfälle im Rechenzentrumsbereich gerechtfertigt sein. Die Kosten für solche Vorkehrungen sind aber immens und kommen sicher nicht für die Mehrzahl der Rechenzentren in Frage. Freilich ist es aufgrund der geopolitischen Entwicklungen weltweit und der Klimaproblematik (ebenfalls weltweit) sehr wahrscheinlich, dass immer mehr Rechenzentren in Richtung (teurer) Hochsicherheits-Rechenzentren geplant werden müssen.

Das N-Schema für Rechenzentrums-Redundanz

Klar ist, dass bei der (Überkapazitäts-) Planung für ein Rechenzentrum immer alle Komponenten im Blick ein müssen: von den Rechnereinheiten (Server, Speicher, Netze, Software) über die Kühleinheiten und die Stromversorgung bis zu eventuellen Verbindungen zu anderen Infrastruktureinrichtungen wie Nah- und Fernwärmenetzen, in denen die Rechenzentrumsabwärme weiter verwertet wird.

Rechenzentrumsebenen (Data Center Tiers)

Das eben beschriebene Schema auf der Basis der Maimalkapazität N ist sehr griffig, liefert allerdings keine wirkliche Handhabe, mit der man einen möglichst ausfallsicheren Rechenzentrums-Betrieb anhand von praxisgerechten Parametern organisieren kann. Gesucht wird deshalb ein Rahmen, der nicht die Überkomplexität der am Anfang dieses Artikels aufgeführten Parametersammlung hat, aber auch nicht die Unterkomplexität des eben dargestellten N-Systems.

Ununterbrochen rechnen Was sind Verfügbarkeitsklassen?

Was zählt sind: Verfügbarkeit, Single Point of Failure sowie Entwärmungsleistung Von Tier1 bis Tier 4: Die vier Qualitätsstufen eines Rechenzentrums

In gutes Mittelding hinsichtlich der Komplexität einerseits und der praktischen Aussagekraft andererseits ist das vom Uptime Institute entwickelte System der verschiedenen Rechenzentrums-Ebenen (Tier 1 bis 4). Rechenzentren der Stufe I (Tier 1) sind die einfachsten.

Sie haben eine ausreichend redundante Infrastruktur für einen effizienten Betrieb, sind aber durch manche Störfälle schlicht überfordert. Sie können Unterbrechungen durch menschliches Versagen verkraften, nicht aber einen unerwarteten Ausfall. Nicht zuletzt müssen sie für Wartungsarbeiten abgeschaltet werden. Sie haben also nicht das, was man Wartungsredundanz nennt.

Ein Tier-2-Rechenzentrum verfügt über ein redundantes Kühl- und Stromversorgungssystem und bietet eine längere Betriebszeit. Mitarbeiter können Komponenten ausbauen, ohne das Rechenzentrum abzuschalten, aber bei größeren Ausfällen ist die Anlage immer noch offline.

Bei einem Rechenzentrum der Stufe 3 hat ein Ausfall an einem beliebigen Punkt keine Auswirkungen auf den Betrieb des Rechenzentrums. Abschaltungen sind nicht erforderlich, um Geräte zu ersetzen oder zu warten.

Rechenzentren der Stufe 4 verfügen über mehrere unabhängige und isolierte Sicherungssysteme, die ein Redundanzniveau von 2N oder 2N+ erfordern. Ausfallzeiten sind in diesen Rechenzentren unwahrscheinlich, ihre Wartung ist jedoch kostspielig.

Modularisierung und Redundanz

Noch einmal zurück zum N-Schema: dieses Redundanz-Schema ist nicht so unflexibel, wie es auf den ersten Blick aussieht. Durch begleitende Maßnahmen wie beispielsweise eine stärkere Modularisierung erhält man nämlich einen stärkeren Hebel, um Redundanz zu erreichen. Fallen mehr Systeme aus als für das jeweilige Redundanzmodell angenommen, erhöht eine modulare Architektur nämlich die verbleibende Restkapazität.

Beispielsweise stehen bei einer (N+2)-Redundanz mit N=1 insgesamt drei Systeme zur Verfügung. Fallen bis zu zwei Systeme aus, stellt das verbleibende dritte die erforderliche Leistung vollständig bereit. Fällt nun auch noch das dritte System aus, steht aber überhaupt keine Leistung mehr zur Verfügung.

Ganz anders ist das bei (N+2)-Redundanz und N=4. Hier stehen insgesamt sechs Systeme zur Verfügung. Bis zu einem Ausfall von zwei Systemen können vom verbleibenden Rest immer noch die erforderlichen 100 Prozent Leistung abgerufen werden. Fällt nun ein drittes System aus, sinkt die bereitgestellte Leistung nicht wie bei N=1 auf 0 Prozent, sondern nur auf 75 Prozent.

Da man davon ausgehen darf, dass das normal laufende System in der Regel mit weniger als dem Maximalwert von N auskommt, dürften die eben genannten 75 Prozent oft ausreichen, dass das System auch in dem beschriebenen Havariefall völlig normal weiterlaufen kann. Andernfalls kann man sich mit Lastverteilung behelfen.

Redundanz ist mehr als das Hinzufügen von Komponenten

Redundanzen sind zum einen als Reserve nützlich, um Unterbrechungen, die durch Fehlbedienung oder durch plötzlichen Systemausfall auftreten, minimal oder gänzlich unsichtbar zu halten, zum anderen helfen sie auch dabei, dass Systeme geräuschlos erweitert werden können, ohne dass sie heruntergefahren werden müssen.

Dabei muss allerdings die Architektur der Redundanz für einen solchen Erweiterungsfall ausgelegt sein. Die Planung von Redundanz im Rechenzentrum ist weit mehr als das bloße Hinzufügen von weiteren Komponenten. Beim Hinzufügen muss immer eine intelligente und zukunftsgerichtete Architektur als Basis vorhanden sein.

(ID:49689067)