Disaster Recovery Übung vom 13/06

·

Einführung

Am Samstag, den 13. Juli (zum Glück kein Freitag), hielten wir zusammen mit unserem IT-Infrastrukturpartner SAVACO unsere erste Disaster Recovery (DR)-Übung ab.

Was ist also DR? Disaster Recovery umfasst eine Reihe von Richtlinien, Werkzeugen und Verfahren, die nach einer natürlichen oder vom Menschen verursachten Katastrophe die Wiederherstellung oder Weiterführung der lebenswichtigen technologischen Infrastruktur und Systeme (und Operationen) ermöglichen.

Seit unserer Gründung im Jahr 2008 haben wir detaillierte Disaster-Recovery-Verfahren und Handbücher für unser 24/7-Dispatching-Desk eingerichtet, die jährlich evaluiert und verfeinert werden. Diese Verfahren haben sich als nützlich erwiesen und wurden während der gesamten Covid19-Krise verstärkt, wobei jeder Dispatcher von zu Hause aus arbeiten kann. Nur im Extremszenario eines katastrophalen Ereignisses, das Belgien wie vom Erdboden verschwinden lässt, würde das EGSSIS-Dispatching nicht zur Verfügung stehen. Also keine Sorgen dort.

Im Rahmen unseres ISO27001-Zertifizierungsprojekts müssen wir ein solches Desaster simulieren, die unser Hauptrechenzentrum in Kortrijk, Belgien, ernsthaft stören würde. Das Ziel dieser DR-Übung war es, den “Failover” zu unserem Backup-Rechenzentrum in Brüssel zu simulieren. Wie lange würde es dauern, bis alle IT-Systeme und Datenbanken einsatzbereit wären? Dies ist sehr wichtig, da wir ein Anbieter von zuverlässiger Software-as-a-Service sind. Natürlich sind unsere Rechenzentren ISO27001-zertifiziert und verfügen über viele Redundanzen und Rückfallmöglichkeiten, um den Betrieb bei Stromausfällen usw. aufrechtzuerhalten. Nichtsdestotrotz müssen wir den “Worst-Case” testen, bei dem wir ein komplettes Rechenzentrum verlieren. Dies erfordert ein Team von Experten!

Das A-TEAM von BUTLERS & whizzkids

Es gibt viele “bewegliche Teile”, die hinter den Kulissen arbeiten, um eine solch umfassende DR-Übung zu planen und durchzuführen. Die Planung dauerte einige Wochen, und wir mussten unsere Kunden sowie alle Marktteilnehmer, mit denen wir kommunizieren (ÜNB/FNB, SSOs usw.), frühzeitig informieren. Aufgrund von Covid19 war unser A-Team für diesen Tag über verschiedene Standorte verteilt:

  • IT team (Jan Corluy, Dirk Van Laere): EGSSIS HQ

  • IT team (Jean-Francois Van Snick): Home office

  • Operations team (Tina Elias, Yannick Van Boven, Wim Allart): EGSSIS HQ

  • Business Analysts (Dieter Juwet, Jonas Lichtert): Home office

  • CEO (Tom Dufraing): EGSSIS HQ

  • SAVACO team (Bert D’Hont, Thijs Deschepper): Home office

Standby team:

  • IT Team (Tom Coppens)

  • SAVACO team (Jen Chiers)

die übung

Die Übung begann um 5:00 Uhr morgens (ja, es war früh!) mit dem Failover der EGSSIS-Softwareanwendungsserver. Der komplette Failover unserer Anwendungsserver dauerte 15 Minuten und verlief reibungslos! Nachdem diese Rechner im Backup-Rechenzentrum in Betrieb waren, mussten einige zusätzliche Konfigurationen vorgenommen werden.

  • Interne/private DNS-Änderungen (2 Minuten)
  • EGSSIS GAS/POWER Application Server Schritte (10 Minuten)
    • Konfigurieren des Reverse-Proxy mit den richtigen Backup-Anwendungsservern im Rechenzentrum
    • Datenbank-Failover
  • EGSSIS COSMOS Application Server Schritte (120 Minuten)
    • Konfigurieren des Reverse-Proxy mit den richtigen Backup-Anwendungsservern im Rechenzentrum
    • Ändern der IP-Adresse entsprechend dem Netzwerk des Backup-Rechenzentrums
    • Ändern der Routing-Konfigurationen entsprechend dem Backup-Rechenzentrum

Um 7.30 Uhr war alles konfiguriert und betriebsbereit, so dass wir mit internen Tests durch unser Betriebs- und Geschäftsteam gemäß dem Testplan begannen. Diese Tests sind notwendig, um zu überprüfen, ob die gesamte Kommunikation korrekt eingerichtet wurde und alle Anwendungen wie erwartet funktionieren. Wir stellten schnell fest, dass zwei Marktbetreiber (TSOs) unsere DR-IP-Adresse (= die IP-Adresse für unser 2. Rechenzentrum) nicht korrekt implementiert bzw. nicht gewhitelistet hatten. Im Einklang mit unserem DR-Handbuch beschlossen wir, alle weiteren notwendigen Tests durchzuführen und dann auf unser Hauptrechenzentrum zurückzugreifen. Dies, um die Handels-/Geschäftskontinuität für alle unsere Kunden, die auf diesen beiden Märkten aktiv sind, zu gewährleisten.

Wir begannen um 8.25 Uhr mit dem Failover zurück in das Hauptrechenzentrum, nachdem wir Mitteilungen an unsere Kunden und Marktkommunikationspartner versandt hatten. Um 9:00 Uhr morgens war in unserem Hauptrechenzentrum alles wieder betriebsbereit. Unten sehen Sie ein Diagramm mit der Verfügbarkeit unserer Software-Plattformen während der DR-Übung.

Leider ist einer unserer Anwendungsserver, nachdem er im Hauptrechenzentrum wieder betriebsbereit war, nicht korrekt gebootet, was zu Anmeldeproblemen für externe Benutzer führte. Dies wurde innerhalb von 30 Minuten von SAVACO behoben.  Nach der Auswertung dieses Problems kommen wir zu dem Schluss, dass das Neustartproblem nicht durch die Failover-Übung verursacht wurde.

NÄCHSTE SCHRITTE

Das Hauptziel einer DR-Übung besteht darin, über das “theoretische Was-wäre-wenn” hinauszugehen und die Fehler unter realen Umständen zu identifizieren.

Im Anschluss an die Auswertung unserer DR-Übung haben wir unser Backlog um einige wichtige Verbesserungen ergänzt:

  • Wechsel unseres DNS-Providers, um die “Time to Live” der DNS-Einträge zu verringern.
  • Verbesserte Netzwerkkonfiguration für Application Server
  • Failover-Konfigurationsaktualisierungen für Application Server
  • Verfügbarkeitstests für externe AS2/4-Kommunikationspartner: So wissen wir zu 100 %, dass jeder TSO/SSO/Gegenpart Daten/Nachrichten von unserem Backup-Rechenzentrum akzeptiert.

Als allgemeine Schlussfolgerung können wir sagen, dass alle unsere Kernfunktionen innerhalb einer Stunde im Backup-Rechenzentrum korrekt in Betrieb waren. Für die Tasks, die nicht wie erwartet gelaufen sind, werden wir unsere Zusage geben, dass diese Punkte rechtzeitig gelöst werden.

Noch einmal vielen Dank an alle, die zu diesem Test beigetragen haben, der zu einer weiteren Verbesserung und Kontinuität unserer Software-as-a-Service führte!

Ich kann bestätigen, dass wir mit unserer ISO27001-Roadmap, wie während der E-World 2020 erwähnt, auf dem richtigen Weg sind.

Herzliche Grüße,

Jan Corluy

CTO – EGSSIS