Blackout : un plan en six étapes pour assurer la résilience IT

21 novembre 2022

AVIS d’EXPERT – Daniel de Prezzo, Head of Technology Southern Europe chez Veritas Technologies propose aux entreprises un plan en six étapes pour assurer leur résilience en cas de blackout.

Le contexte actuel de crise énergétique en Europe suggère que nous pourrions avoir à faire face, dès cet hiver, à des coupures d’électricité de grande ampleur. À ce jour, aucune annonce officielle et à fortiori aucune planification formelle n’a été rendue publique, toutefois les nombreuses incertitudes qui planent sur l’approvisionnement et donc la capacité de production en font un sujet dont il est légitime de se préoccuper.

L’article 2 de l’arrêté du 5 juillet 1990 suggère qu’en cas de coupures, les « installations industrielles qui ne sauraient souffrir, sans subir de dommages, d’interruption dans leur fonctionnement, particulièrement celles d’entre elles qui intéressent la défense nationale » doivent être préservées. En théorie, cet article ouvre la voie à une préservation, au moins partielle, des datacenters en cas de crise. Cependant, ces derniers ne sont pas officiellement considérés comme des opérateurs d’importance vitale et leurs destins restent donc incertains si de telles coupures devenaient nécessaires.

La vaste majorité des datacenters modernes disposent déjà systèmes de protection contre les coupures

Des onduleurs et des batteries permettent de prendre le relais immédiatement et permettent d’assurer soit une alimentation pendant une durée brève pour « éteindre proprement » les installations, soit un relais vers le système de protection suivant.
Les plus grands datacenters disposent de groupes électrogènes qui assurent la continuité des onduleurs et des batteries permettant ainsi une continuité de l’alimentation électrique.
Sur certains sites, une ligne électrique de secours permet d’assurer l’alimentation du datacenter au-delà des groupes électrogènes.

Ces systèmes de protections ont plusieurs limites

Leur fonctionnement est prévu pour faire face à des interruptions électriques ponctuelles, liées à des incidents tels que des incendies ou des inondations.
Les groupes électrogènes fonctionnent avec de l’énergie fossile. Leur fonctionnement dans la durée est donc soumis à la fourniture d’essence ou de diesel.
Les lignes électriques de secours, si issues de la même géographie, peuvent être coupées également.
Enfin, les datacenters privés les plus modestes peuvent se contenter d’un système d’onduleurs et de batteries.

La durée et la couverture géographique exceptionnelle de ces potentielles coupures, ainsi que leur possible fréquence élevée et leur durée, en feraient un risque d’un genre nouveau pour lequel on ne peut garantir que les systèmes de protection actuels sont adaptés.

La plupart des entreprises européennes ont développé des plans de résilience et de secours pour pallier les urgences ponctuelles et inattendues – comme des inondations ou des incendies – qui peuvent mettre hors service leurs datacenters pendant plusieurs jours. Cependant, cet hiver, la menace la plus probable pour leurs systèmes provient d’événements répétés mais prévisibles, à savoir d’éventuelles coupures d’électricité qui pourraient durer jusqu’à plusieurs heures consécutives. L’approche des entreprises doit alors évoluer en conséquence : elles doivent mettre sur pied de nouveaux plans d’actions pour assurer la disponibilité de leurs services, quoi qu’il puisse arriver.

Dans cette optique, voici un plan d’action, en six étapes

Connaître les limites des plans de secours existants

Les entreprises doivent soigneusement examiner les plans de reprise après sinistre en place et évaluer s’ils sont adaptés à l’éventualité d’une panne générale. Cette analyse est l’occasion de déterminer si l’ensemble des plans de résilience sont à même de couvrir la totalité des risques alors que le paysage de menaces évolue constamment. Les entreprises doivent en particulier vérifier les performances de ces mêmes plans selon des critères de délais de récupération, d’emplacements de basculement ou encore de facilité de retour à une infrastructure fonctionnelle une fois le problème résolu.

Comprendre le rôle de l’onduleur

Dans la plupart des entreprises, les infrastructures de données critiques sont connectées à des onduleurs (UPS, Uninterrupted Power Supply), destinés à parer les pannes de courant de courte durée. De manière générale, ils sont presque toujours capables de supporter des charges de travail lourdes pendant au moins 30 minutes. Toutefois, certains experts prévoient des périodes de panne pouvant aller jusqu’à plusieurs heures. De ce fait, les entreprises doivent savoir combien de temps leurs processus pourront fonctionner alimentés par ces UPS (ou sur des générateurs), et à partir de quel délai elles devront basculer vers des systèmes alternatifs.

Identifier les applications et les données critiques ; cartographier leur emplacement

Même si la mise à l’arrêt ou l’indisponibilité de certaines applications/données critiques peuvent mettre une entreprise dans une situation particulièrement compliquée, ce n’est pas le cas pour toutes. Le défi pour les entreprises est alors de savoir quelles données sont réellement critiques et d’être capable d’établir une hiérarchie et un ordre de priorité. Il est particulièrement important de rechercher les dépendances des données, c’est-à-dire les ensembles qui ne font pas partie d’un flux de travail primaire mais qui sont essentiels à la réalisation du processus. Les outils de cartographie des données seront ici d’une aide précieuse.

Échanger avec les partenaires cloud et comprendre où se situe la responsabilité

Il est facile de croire que si les données ou les charges de travail sont dans le CRésilienceloud, il incombe au fournisseur d’atténuer l’impact des temps d’arrêt provoqués par des interruptions de la fourniture d’électricité. Cependant, les responsabilités peuvent varier en fonction du type de service. Il est donc essentiel que chaque entreprise sache clairement quels éléments entrent dans leur domaine de responsabilité.

Convenir d’un nouveau plan hautement distribué

Une fois que les entreprises ont qualifié les actifs qui doivent rester disponibles (données, applications), où ils se trouvent, et combien de temps ils peuvent fonctionner sans courant, elles doivent aller plus loin et établir un plan de basculement. Si les limites sont en effet dépassées, il s’agit de déplacer l’ensemble dans une zone plus sûre. Mais attention, alors que les plans pour des incendies ou des inondations déplacent souvent les actifs numériques à seulement quelques kilomètres, cela ne sera pas suffisant pour des pannes de courant qui peuvent couvrir de plus grandes zones géographiques. Les entreprises doivent déterminer leurs sites de basculement en prenant en compte ce facteur.

Tester, plutôt deux fois qu’une

Les plans de reprise après sinistre ne sont utiles que s’ils fonctionnent correctement. Malheureusement, les entreprises se rendent parfois compte qu’ils ne sont pas efficaces au moment où elles en ont le plus besoin. Les tests permettent alors d’identifier les dépendances inattendues et de les résoudre avant qu’elles ne causent de réels problèmes.

Les entreprises sont confrontées à un risque inhabituel mais elles peuvent saisir cette opportunité pour renforcer leur résilience. Même si pour l’heure nous ne savons pas si ces incidents arriveront, c’est un risque qui doit être pris en compte par les entreprises et doit les pousser à revoir leur approche de reprise après sinistres.

La vaste majorité des datacenters modernes disposent déjà systèmes de protection contre les coupures

Ces systèmes de protections ont plusieurs limites

Dans cette optique, voici un plan d’action, en six étapes

Sopra Steria : rachat de l'intégralité des actions de CS Group