Retour sur notre exercice de Disaster Recovery du 13/06

·

Introduction

Le samedi 13 juillet (heureusement pas un vendredi), nous avons organisé notre premier exercice de Disaster Recovery (DR) ou en français “Reprise après sinistre” avec notre partenaire d’infrastructure informatique SAVACO.

Qu’est-ce que ça veut dire ? La reprise après sinistre est un ensemble de politiques, d’outils et de procédures visant à permettre la reprise ou la poursuite des infrastructures vitales et des systèmes (et opérations) après une catastrophe d’origine naturelle ou humaine.

Dès notre création en 2008, nous avons mis en place des procédures détaillées de DR pour notre équipe de dispatching 24/7, qui sont testées et améliorées chaque année. Comme nous vous l’avions mentionné dans notre dernière newsletter, ces procédures se sont avérées utiles et ont été renforcées tout au long de la crise de Covid19 – chaque dispatcheur pouvant travailler depuis son domicile. Ce n’est que dans un scénario catastrophe qui rayerait la Belgique de la surface de la terre que le dispatching d’EGSSIS deviendrait indisponible. Donc pas de soucis ici.

Dans le cadre de notre projet de certification ISO27001, nous devons simuler une catastrophe qui perturberait gravement notre datacenter principal à Courtrai, en Belgique. L’objectif de cet exercice de DR était de simuler le transfert vers notre datacenter de back-up à Bruxelles. De combien de temps avons-nous besoin pour que tous les systèmes informatiques et les bases de données soient fonctionnels ? C’est un exercice très important pour nous car nous sommes un fournisseur de Software-as-a-Service fiable. Bien sûr, nos datacenters sont certifiés ISO27001 et disposent de nombreuses redondances et des dispositifs de secours pour rester opérationnels en cas de panne de courant, etc. Néanmoins, nous devions tester le “pire des cas” où nous perdrions totalement notre datacenter principal. Et cela nécessite une équipe d’experts !

Notre équipe d’experts Butlers & Whizzkids

De nombreuses personnes ont travaillé en coulisses pour préparer et exécuter un exercice de DR aussi complet. La préparation a pris quelques semaines et nous avons dû informer nos clients bien à l’avance, ainsi que tous les acteurs du marché avec lesquelles nous communiquons (TSO, SSO, etc.). En raison de la Covid19, notre équipe d’experts a été répartie sur différents sites pour cette journée :

  • Équipe IT (Jan Corluy, Dirk Van Laere) : Siège d’Egssis
  • Équipe IT (Jean-Francois Van Snick) : Home Office
  • Équipe Opérations (Tina Elias, Yannick Van Boven, Wim Allart) : Siège d’Egssis
  • Équipe Business Analysts (Dieter Juwet, Jonas Lichtert) : Home office
  • CEO (Tom Dufraing) : Siège d’Egssis
  • Équipe SAVACO (Bert D’Hont, Thijs Deschepper) : Home office

Équipe en back-up :

  • Équipe IT (Tom Coppens)
  • Équipe SAVACO (Jen Chiers)

L’ exercise

L’exercice a commencé à 5 heures du matin (oui, c’est tôt !), avec le basculement des serveurs d’application des logiciels EGSSIS. Le basculement complet de nos serveurs a pris 15 minutes, et s’est déroulé sans problème ! Une fois le transfert effectué, il a fallu appliquer quelques configurations supplémentaires.

  • Changements DNS internes/privés (2 minutes)
  • Pour les serveurs des applications EGSSIS GAS/POWER (10 minutes)

o Configurer le proxy avec les données du serveur de backup

o Transférer la base de données

  • Pour les serveurs de l’application EGSSIS COSMOS (120 minutes)

o Configurer le proxy avec les données du datacenter de backup

o Changer l’adresse IP en fonction des paramètres du réseau de backup

o Modifier les configurations de routage en fonction du datacenter de backup

À 7h30, tout était configuré et opérationnel, nos équipes d’Opérations et de Business Analysts ont commencé les premiers tests internes conformément à notre plan de tests. Ces tests sont nécessaires pour vérifier que toutes les communications ont été correctement configurées et que différentes applications fonctionnent comme prévu. Nous avons rapidement constaté que deux TSOs n’avaient pas correctement enregistré l’adresse IP de notre datacenter de backup. Conformément à notre plan de DR, nous avons décidé de procéder à tous les autres tests nécessaires, puis de rebasculer sur notre datacenter principal. Ceci afin d’assurer la continuité des opérations pour tous nos clients actifs sur ces deux marchés.

Nous avons commencé le transfert vers le datacenter principal à 8h25 du matin après avoir informé nos clients et partenaires de communication. À 9h00, tout était à nouveau opérationnel dans notre datacenter principal. Vous trouverez ci-dessous un graphique indiquant la disponibilité de nos plateformes logicielles pendant toute la durée de l’exercice de DR.

Malheureusement, une fois réinstallé sur le datacenter principal, l’un de nos serveurs n’a pas redémarré correctement, ce qui a engendré des problèmes de connexion pour les utilisateurs. Ce problème a été résolu en moins de 30 minutes par l’équipe de SAVACO. Après analyse, nous avons conclu que le problème de redémarrage n’était pas lié à l’exercice de DR.

Prochaines étapes

L’objectif principal d’un exercice de DR est d’aller au-delà des “hypothèses théoriques” et d’identifier les points faibles dans des circonstances réelles.

Suite à l’évaluation de notre exercice de DR, nous avons ajouté les développements suivants à notre liste :

  • Changement de fournisseur DNS pour réduire le “Time to Live” des enregistrements DNS
  • Amélioration de la configuration du réseau pour les serveurs d’applications
  • Mises à jour de la configuration de back up pour les serveurs d’applications
  • Tests de disponibilité pour les partenaires de communication AS2/AS4 : pour être certains à 100% que chaque TSO/SSO/contrepartie recevra bien les messages envoyés depuis notre datacenter de backup

En conclusion, nous pouvons dire que toutes nos fonctions de base ont été installé et ont fonctionné correctement dans le datacenter de backup en moins d’une heure. Pour les tâches qui n’ont pas fonctionné comme prévu, nous nous engageons à ce que ces points soient résolus en temps voulu.

Encore une fois, merci à tous ceux qui ont participé à ce test qui a permis d’améliorer encore plus notre logiciel et d’en assurer la continuité en tant que service !

Je peux confirmer que nous sommes dans les temps de parcours pour notre certification ISO27001 comme présenté durant E-world 2020.

Cordialement,

Jan Corluy – CTO