Zu 99,999 Prozent sicher

Feature | 27. Oktober 2010 von Timo Brüggemann 0

Der ftServer 6300 ist das Top-Modell unter den fehlertoleranten Servern von Stratus (Foto: Stratus)

Der Stratus ftServer 6300 ist das Top-Modell unter den fehlertoleranten Servern (Foto: Stratus Technologies)

Ausfallsichere IT-Systeme, die rund um die Uhr ihre Arbeit verrichten, sind unabdingbar. Ob Business Suite, ERP, CRM oder NetWeaver: Bleiben die zentralen Server stehen, kommt der gesamte Geschäftsbetrieb zum Stillstand.

So scharf diese Anforderungen einerseits sind, so bleiben sie andererseits doch recht vage. Wer einmal nach den Begriffen “Hochverfügbarkeit” und “SAP” recherchiert, wird feststellen, dass sich kaum ein Unternehmen, sei es Anbieter oder Anwender, darauf festlegen will, was denn unter Hochverfügbarkeit konkret zu verstehen sein soll. Es drängt sich viel­mehr der Eindruck auf, dass unter Hochverfügbarkeit immer das verstanden wird, was das jeweilige System gerade zu leisten vermag. So betreibt beispielsweise ein Unternehmen ein SAP-System mit einer “Hochverfügbarkeit von 99,5 Prozent” und einer “maximalen zusammenhängenden Ausfallzeit von 2 Stunden”. In einem anderen Fall wird bei “SAP-Hochverfügbarkeit” eine Ausfallzeit von bis zu 20 Minuten akzeptiert.

Doch 20 Minuten sind eine lange Zeit: Wenn beispiels­weise die Kassensysteme 20 Minuten nicht arbeiten, wenn ein Bestellsystem 20 Minuten nicht verfügbar ist, wenn ein Notrufsystem für 20 Minuten nicht erreichbar ist, oder wenn die LKWs an der Rampe 20 Minuten lang nicht abgefertigt werden können.

Im Personal- und Finanzwesen kommt es vor allem auf die Verfügbarkeit der Daten an. Hier muss primär sichergestellt sein, dass keine Informationen verloren gehen. Gefordert ist hier eine hohe Verfügbarkeit, nicht aber in jedem konkreten Fall echte Hochverfügbarkeit.

Daten- und Prozessverfügbarkeit

Anders sieht es dort aus, wo nicht Datenverfügbarkeit, sondern Prozessverfügbarkeit gefordert ist. Hier dürfen Systeme, die beispielsweise in einer MII-Anwendung (Manufacturing Integration and Intelligence) einen Produktionsprozess überwachen und steuern, nicht einmal für eine Minute ausfallen, weil dann ja die Produktion unterbrochen wird – mit allen Auswirkungen auf Just-in-Time- und Just-in-Series-Prozesse. Unter Umständen müssen auch bereits begonnene Fertigungschargen wieder ausgemustert werden, weil kein lückenloses Produkt-Tracking mehr möglich ist. Solche Prozessverfügbarkeit wird regelmäßig in der produzierenden und in der Pharma-Industrie gefordert – und die Forderung an die IT heißt hier ganz klar: Echte Hochverfügbarkeit.

Was eine derartige Hochverfügbarkeit tatsächlich von der IT verlangt, scheint vielen Unternehmen nicht klar zu sein. Schon bei der bloßen Bezifferung des Verfügbarkeitsniveaus gibt es daher die ersten Überraschungen. So klingt eine Verfügbarkeit von 99,5 Prozent für viele zunächst einmal recht hoch – ehe man beginnt, genauer nachzurechnen: Im 7*24-Stunden-Dauer­betrieb lassen diese 99,5 Prozent nämlich eine durchschnittliche Ausfallzeit von über 43 Stunden pro Jahr zu.

Damit ist man natürlich weit entfernt von Prozessverfügbarkeit, und auch für die meisten anderen SAP-Systeme dürfte das kein akzeptabler Wert sein. Als Anwender sollte man sich außerdem darüber im Klaren sein, dass System-Ausfälle unangemeldet sind und gemäß Murphys Gesetz regelmäßig dann eintreten, wenn sie am wenigsten in den Betriebsablauf passen: bei Kassensystemen an Adventssamstagen oder bei Web-Shops in den frühen Abendstunden. Das passende Anschauungsmaterial kennt jeder IT-Leiter. 99,5 Prozent ist übrigens das Verfügbarkeitsniveau, das Provider für extern gehostete Applikationen üblicherweise zusagen können – keinesfalls eine Basis für Hochverfügbarkeit.

Lesen Sie auf der nächsten Seite: Der kleine Unterschied: 99,99 und 99,999 Prozent

Verfügbarkeitsniveau und Ausfallzeiten

Verfügbarkeitsniveau und Ausfallzeiten

Zu 99,999 Prozent sicher

Aber auch eine Verfügbarkeit von 99,9 Prozent, die häufig schon als Hochverfügbarkeit bezeichnet wird, ist für prozesskritische An­wendungen nicht ausreichend. Eine durchschnittliche Ausfallzeit von über 8,8 Stunden pro Jahr ist in der Fertigungssteuerung mit der SAP-MII deutlich zu lange, weil sie Unterbrechungen von Prozessen nicht hinreichend ausschließen kann. Erst ab einem Verfügbarkeitsniveau von 99,99 Prozent, was die durchschnittliche Ausfallzeit auf etwa 52 Minuten pro Jahr reduziert, kann man mit einiger Berechtigung von Hochverfügbarkeit sprechen.

Und natürlich sind auch 99,99 Prozent für einige Anwendungen nicht ausreichend, beispielsweise in der Kraftwerkssteuerung oder für Notfallsysteme in Krankenhäusern. Hier muss man noch etwas drauflegen und 99,999 beziehungsweise sogar 99,9999 Prozent (“Six Nine”) Verfügbarkeit mit einer durchschnittlichen Ausfallzeit von etwa 5 Mi­nuten beziehungsweise einer halben Minute pro Jahr herstellen – das ist dann echte “Continuous Availability”.

Dabei handelt es sich keineswegs bloß um Zahlenspiele. Die Anzahl der “Neuner” in der Beschreibung des Verfügbarkeitsniveaus ist ja nur die statistische Darstellung eines tatsächlichen Risikos für ein Unternehmen. Auch wenn die Entwicklungen in der Hardware-Technik in den letzten Jahren Server-Systeme hervorgebracht haben, die weitaus stabiler sind als die Sorgenkinder, mit denen sich IT-Abteilungen früher herumschlagen mussten, so ist doch ein erhebliches Restrisiko geblieben. Denn während einerseits die Ausfallwahrscheinlichkeit gesunken ist, ist andererseits die potentielle Schadenshöhe dramatisch angewachsen.

Ein 10-minütiger Ausfall eines SAP-Systems hat heute ganz andere wirtschaftliche Folgen als er es vor zehn oder gar fünfzehn Jahren gehabt hätte. Den wenigsten Unternehmen ist klar, wie teuer IT-Ausfälle sein können. So hat beispielsweise UPS die Kosten für den Ausfall seines Flugzeugverwaltungssystems auf rund 25.000 Dollar pro Minute geschätzt.

Natürlich haben die Unternehmen in dieser Situation nicht einfach die Hände in den Schoss gelegt, sondern sich bemüht, die Verfügbarkeit ihrer SAP-Systeme zu verbessern. Dafür bieten sich verschiedene Technologien an.

Cluster: Hochverfügbarkeit mit Einschränkungen

Auch in der SAP-Welt führt der Weg zur Hochverfügbarkeit heute meist über Cluster-Systeme. Diese Technologie koppelt (mindestens) zwei Server durch eine Steuerungs-Software. Solche Cluster-Knoten werden von einem Cluster-Dienst laufend überwacht – fällt ein Knoten aus, so übernimmt der jeweils andere dessen Aufgaben. Diese Konfiguration kann auch Dutzende von Servern umfassen.

Was vielfach nicht bekannt ist: Auch Cluster arbeiten im Störungsfall nicht vollständig unterbrechungsfrei. Die Übernahme der Prozesse durch einen anderen Rechner erfordert eine gewisse Failover-Zeit, während der die Anwendungen und Daten nicht zur Verfügung stehen, weil beispielsweise System-Dienste und Programme neu gestartet oder Datenbank-Transaktionen zurückgesetzt werden müssen.

Auch wenn ein Failover in modernen Cluster-Systemen weitgehend automatisch erfolgt, werden je nach Komplexität der Applikationen immer mehrere Minuten vergehen, bis alle Systeme wieder uneingeschränkt zur Verfügung stehen. Dabei können natürlich der Applikationsstatus oder ganze Transaktionen verloren gehen. Cluster-Server erreichen daher nur eine Verfügbarkeit von rund 99,99 Prozent; ein durchaus hoher Wert, aber gerade in prozesskritischen Anwendungen nicht ausreichend.

Zudem erweisen sich Cluster-Systeme in der Praxis als schwierig zu administrieren. Grundsätzlich sind zwei voneinander ganz unabhängige Systeme immer aufwändiger zu pflegen als ein singuläres, und ein Cluster kann nur funktionieren, wenn immer alles parallel erfolgt, zum Beispiel die Durchführung von Updates, die Einführung neuer Sicherheitsrichtlinien usw. Ist der Betrieb schon bei zwei Cluster-Knoten nicht ganz einfach, so steigt der Aufwand für die Steuerung und Kontrolle mit der Zahl der Server, die in einem Cluster zusammengeschlossen sind.

Ohne fachkundiges Bedienerpersonal lassen sich solche Konfigurationen nicht beherrschen. Cluster-Lösungen weisen damit relativ hohe Gesamtkosten auf, selbst dann, wenn für die eigentliche Server-Hardware vergleichsweise preiswerte Geräte eingesetzt werden.

Lesen Sie auf der nächsten Seite: Fehlertolerante Server

Hochverfügbarkeit

Hochverfügbarkeit: Ein Überblick

Bei fehlertoleranten Servern sind alle Systemkomponenten doppelt vorhanden, so dass keine einzige Störung auf Kosten der Systemverfügbarkeit geht.

Bei fehlertoleranten Servern sind alle Systemkomponenten doppelt vorhanden, so dass keine einzige Störung auf Kosten der Systemverfügbarkeit geht.

Fehlertolerante Server

Angesichts dieser konzeptbedingten Schwachstellen der Cluster-Tech­nologie müssen Unternehmen für prozesskritische Aufgaben andere Lösungen einsetzen. Hier bieten sich insbesondere fehlertolerante Server an. Diese Technologie beruht zwar wie die Cluster auf Redundanz, setzt dabei aber auf einer Ebene tiefer an: Es sind nicht die kompletten Server, sondern die einzelnen Komponenten des Rechners redundant ausgelegt. Alle betriebswichtigen Teile sind im fehlertoleranten Server doppelt vorhanden: Prozessoren, Speicher-Chips und I/O-Einheiten, also nicht nur, wie sonst in High-End-Systemen üblich, nur Netzteile und Festplatten. Sollte eine Komponente ausfallen, übernimmt die jeweilige Partner-Komponente vollständig automatisch und vom Benutzer unbemerkt den Betrieb. Die Anwendung kann somit bei jedweder Störung ohne Datenverlust oder Verlust des Status der Anwendung kontinuierlich weitergeführt werden.

Anders als ein Cluster-System verhält sich ein fehlertoleranter Server nach außen, gegenüber dem Benutzer, wie eine Black Box. Hochverfügbarkeit ist hier eine vollständig systeminterne Angelegenheit und muss nicht erst implementiert oder sichergestellt werden. Das hat natürlich Folgen für die Kosten des Systems, denn obwohl fehlertolerante Server in der Anschaffung etwas teurer als handelsübliche Systeme sind, liegen ihre Gesamtkosten, wegen der geringeren Betriebskosten, deutlich unter denen vergleichbarer Cluster-Systeme.

Dabei übertreffen die  fehlertoleranten Server die Cluster-Systeme bei der Ausfallsicherheit: die beispielsweise von Stratus angebotenen ftServer erreichen eine Verfügbarkeit von bis zu 99,9999 Prozent. Damit übertreffen sie sogar die Verfügbarkeit von Großrechnern – mehr ist derzeit in der kommerziellen IT nicht erreichbar. In SAP-Landschaften wird man – neben den genannten prozesskritischen Systemen – Hochverfügbarkeit bevorzugt für Zentralsysteme verwenden, beispielsweise für den Message-Server oder für DBMS, weil von deren Verfügbarkeit wiederum alle anderen Systeme abhängen.

Ausfallsicherheit per Software

Zwischen Cluster und fehlertoleranten Servern positionieren sich neuerdings Software-basierte Hochverfügbarkeits-Lösungen, die kostengünstig sind und sich ohne großen Aufwand implementieren und betreiben lassen. Stratus Avance etwa verbindet per Software zwei Standard-x86-Server – beispiels­weise Server von Dell, HP, Tarox und Wortmann – zu einer hochverfügbaren Einheit. Dabei wird automatisch auf beiden Servern ein gemeinsamer logischer Server installiert, auf dem wiederum beliebig viele virtuelle Server eingerichtet werden können. Die beiden Rechner werden über eine normale Netzwerkverbindung verbunden und durch Avance permanent überwacht und synchronisiert. Beim Ausfall eines Servers kann der jeweils andere den Betrieb automatisch übernehmen.

Mit dieser Technologie ist ein Verfügbarkeitsniveau von 99,99 Prozent erreichbar, ohne dass Anwender dafür die Komplexität eines Cluster-Systems in Kauf nehmen müssen. Auf Grund der sehr einfachen Administration eignet sich Avance auch für SAP-Anwendungen in verteilten Standorten, die über keine Fachpersonal vor Ort verfügen.

Welche Technologie für Unternehmen die passende ist, hängt natürlich von den konkreten Anforderungen ab. Kommt es in erster Linie auf Datenverfügbarkeit an, so muss entschieden werden, ob eine Server-Ver­füg­barkeit von 99,99 Prozent ausreicht. Kommt es auf Prozessverfügbarkeit an, so wird man damit eventuell nicht auskommen. Wichtig zu wissen für alle SAP-Anwender ist: Nicht überall wo Hochverfügbarkeit drauf steht, ist tatsächlich auch Hochverfügbarkeit drin.

Tags:

1 comment

  1. Josef Rehm

    Wichtig !

Leave a Reply