ESERCIZIO DI DISASTER RECOVERY DEL 13/06

·

Intro

Sabato 13 giugno (per fortuna non di venerdì), abbiamo tenuto la nostra prima esercitazione di Disaster Recovery (DR) insieme al nostro partner per le infrastrutture IT, SAVACO. 

Che cos’è il DR? Disaster Recovery comprende un insieme di regole, strumenti e procedure per consentire il recupero o la continuazione di infrastrutture e sistemi tecnologici vitali (e operazioni) a seguito di un disastro naturale o causato dalle persone. 

Dalla nostra fondazione nel 2008, abbiamo messo a punto procedure dettagliate di Disaster Recovery e playbook per il nostro ufficio di dispacciamento 24 ore su 24, 7 giorni su 7 – che vengono valutati e perfezionati su base annuale. Come abbiamo accennato nella nostra ultima newsletter, questi si sono rivelati utili e sono stati rafforzati durante la crisi di Covid19 – con ogni dispatcher in grado di lavorare da casa. Solo in uno scenario estremo di un evento catastrofico che cancella il Belgio dalla faccia della terra, il dispatch di EGSSIS non sarebbe più disponibile. Quindi non c’è da preoccuparsi. 

In linea con il nostro progetto di certificazione ISO27001, dobbiamo simulare un disastro che perturberebbe gravemente il nostro centro dati principale situato a Kortrijk, in Belgio. L’obiettivo di questo esercizio DR era quello di simulare il “fail-over” del nostro centro dati di backup a Bruxelles. Quanto tempo ci vorrebbe per rendere operativi tutti i sistemi IT e i database? Questo è molto importante perché siamo un fornitore di Software-as-a-Service affidabile. Naturalmente i nostri data center sono certificati ISO27001 e hanno molte ridondanze e ripiegamenti per rimanere operativi durante le interruzioni di corrente, ecc. Ciononostante dobbiamo testare il “caso peggiore” in cui perdiamo un centro dati intero. Questo richiede un team di esperti! 

LA A-TEAM DEI BULLERS & WHIZZKIDS 

Ci sono molte “parti mobili” che lavorano dietro le quinte per pianificare ed eseguire un esercizio di DR così ampio. La pianificazione ha richiesto alcune settimane e abbiamo dovuto informare i nostri clienti con largo anticipo, nonché tutti i soggetti del mercato con cui comunichiamo (TSO, SSO, ecc.). A causa di Covid19, il nostro A-Team per la giornata è stato separato in diverse sedi: 

  • Team IT (Jan Corluy, Dirk Van Laere): SEDE CENTRALE EGSSIS 
  • Team IT (Jean-Francois Van Snick): Home office 
  • Squadra operativa (Tina Elias, Yannick Van Boven, Wim Allart): SEDE CENTRALE EGSSIS 
  • Analisti d’affari (Dieter Juwet, Jonas Lichtert): Home office 
  • CEO (Tom Dufraing): SEDE CENTRALE EGSSIS 
  • SAVACO team (Bert D’Hont, Thijs Deschepper): Home office 

Squadra di riserva: 

  • Squadra IT (Tom Coppens) 
  • Squadra SAVACO (Jen Chiers) 

L’ESERCIZIO 

L’esercizio è iniziato alle 5:00 del mattino (sì, era presto!), con il fail over dei server delle applicazioni software EGSSIS. Il fail-over completo dei nostri application server ha richiesto 15 minuti, ed è andato tutto liscio! Dopo che queste macchine sono state messe in funzione nel data center di backup, è stato necessario applicare alcune configurazioni extra. 

  • Modifiche DNS interne/private (2 minuti) 
  • Passaggi dei server applicativi EGSSIS GAS/POWER (10 minuti) 
    • Configurare il reverse proxy con il corretto backup dei server applicativi del centro dati 
    • Fail-over del database 
  • Passi dei server applicativi EGSSIS COSMOS (120 minuti) 
    • Configurare il reverse proxy con il corretto backup dei server applicativi del centro dati 
    • Cambiare l’indirizzo IP in base alla rete del centro dati di backup 
    • Cambiare le configurazioni di routing in base al data center di backup 

Alle 7:30 del mattino tutto era configurato e funzionante, quindi abbiamo iniziato con i test interni del nostro team operativo e commerciale secondo il piano di testaggio. Questo test è necessario per verificare se tutte le comunicazioni sono state configurate correttamente e se tutte le applicazioni funzionano come previsto. Abbiamo subito notato che due operatori di mercato (TSO) non hanno implementato correttamente il nostro indirizzo IP DR (= l’indirizzo IP del nostro secondo data center). In linea con il nostro playbook DR abbiamo deciso di fare tutti gli altri test necessari e di ripiegare sul nostro data center principale. Questo al fine di garantire la continuità di trading/business per tutti i nostri clienti attivi su questi 2 mercati. 

Abbiamo iniziato il nostro fail-over al data center principale alle 8:25 del mattino dopo aver inviato le comunicazioni ai nostri clienti e alle controparti di comunicazione del mercato. Alle 9:00 del mattino tutto era di nuovo in funzione nel nostro data center principale. Di seguito è riportato un grafico con la disponibilità delle nostre piattaforme software durante l’esercizio di DR. 

Purtroppo, dopo essere dinuovo attivo e funzionante nel centro dati principale, uno dei nostri server applicativi non si è avviato correttamente, causando problemi di accesso per gli utenti esterni. Questo problema è stato risolto in 30 minuti da SAVACO.  Dopo aver valutato questo, possiamo concludere che il problema del riavvio non è stato causato dall’esercizio di fail-over. 

PASSI SUCCESSIVI 

L’obiettivo principale di un esercizio di DR è quello di andare oltre il ” what-if teorico” e di identificare i punti di fallimento in circostanze reali. 

In seguito alla valutazione del nostro esercizio di DR abbiamo aggiunto alcuni importanti miglioramenti al nostro backlog: 

  • Cambiare il nostro provider DNS per abbassare il ‘Time To Live’ dei record DNS 
  • Miglioramento della configurazione di rete per i server delle applicazioni 
  • Aggiornamenti di configurazione fail-over per i server delle applicazioni 
  • Test di disponibilità per le parti di comunicazione esterne AS2/4: così sappiamo al 100% che ogni TSO/SSO/controparte accetta dati/messaggi dal nostro centro dati di backup 

Come conclusione generale, possiamo dire che tutte le nostre funzioni principali sono state eseguite correttamente nel data-center di backup entro un’ora. Per i compiti che non sono stati eseguiti come previsto, ci impegneremo affinché questi punti siano risolti in modo opportuno. 

Ancora una volta grazie a tutti coloro che hanno contribuito a questo test che ha portato ad un ulteriore miglioramento e continuità del nostro software come servizio! 

Posso confermare che siamo sulla buona strada con il nostro roadmap ISO27001 come accennato durante l’E-World 2020. 

Cordiali saluti, 

Jan Corluy 

CTO – EGSSIS