L’orchestration promet d’automatiser la plupart des processus IT. Mais la qualité de la reprise d’activités dépend aussi de mises à jour rigoureuses et d’une bonne gestion des changements.
« Maintenir des activités fiables requiert deux conditions complémentaires : il faut disposer d’une excellente visibilité des infrastructures, et ne pas faire d’erreur au niveau des interventions », résume Christophe Weiss, directeur général d’APL France. Toute l’entreprise doit s’organiser pour faire face à un sinistre éventuel. Mais selon le cabinet Forrester, 82 % des organisations s’estiment mal préparées au déclenchement des processus de reprise. D’où les efforts actuels d’éditeurs pour modéliser, orchestrer et tester automatiquement les services de la reprise d’activités.
L’infrastructure de PRA doit être dimensionnée pour soutenir les charges applicatives de production dont on a le plus besoin, de façon agile et en allouant le plus rapidement possible les ressources. « En cas de crise, on perd des capacités et parfois des ressources humaines. Il faut donc avoir le moins de choses à faire à la main », confirme Didier Lavoine, de Digora. Il rappelle que l’approvisionnement et les bascules télécoms sont relativement lents à obtenir, en France, obligeant de prévoir par avance le système d’adressage adapté. À contrario, au Luxembourg, on connecte rapidement une salle de repli et ses postes de travail mis à la disposition d’une équipe réduite, après sinistre. En pratique, différents niveaux de réplication de données sont proposés, selon les métiers et leur saisonnalité : « Une base logistique ou une centrale d’énergie doivent fonctionner en 24/7. Et un quotidien daté de la veille n’a plus de valeur le lendemain », illustre-t-il. Dans de tels cas, l’infrastructure partage les charges applicatives, de façon continue, sur deux sites distants fonctionnant en mode actif-actif.
La modélisation graphique du PRA
« Le plan de reprise traditionnel passe par un runbook ; ce livre de procédures, stocké dans un coffre, détaille les opérations à déclencher. Nous proposons de l’automatiser, pour le rendre plus fiable et plus rapide. Cela évite de mobiliser de nombreuses ressources dans une période où les équipes sont particulièrement stressées », dépeint Yann Guernion, product marke-ting manager de CA Technologie, en charge de la ligne d’automatisation. Il précise que la banque ING Bank a réduit son objectif de reprise après incident d’un facteur 4 en suivant cette stratégie.
La transcription du plan de reprise dans un outil d’automatisation s’effectue par modélisation d’un workflow, représenté de façon graphique, de simples opérations de glisser-déposer précisant les actions à mener et les liens logiques qui les enchaînent.
Cette description du PRA présente l’avantage de pouvoir simuler divers scenarios, de les tester à blanc, puis de façon mensuelle pour entraîner les équipes, sans déclencher systématiquement les actions ayant un effet sur la production.
Derrière la plateforme d’orchestration de services CA Autonomic One Automation, une place de marché accueille des connecteurs pour intégrer les solutions de virtualisation, de sauvegarde et les principaux gestionnaires de données. On peut ainsi adapter l’automatisation à l’environnement technique de l’entreprise, puis remplacer d’anciens scripts obsolètes : « Il faut une coordination sans faille entre les hommes et les processus en place. Plus on automatise, moins on risque d’avoir des erreurs », affirme Yann Guernion.
La gestion des dépendances systèmes
Même lorsque l’entreprise cherche à homogénéiser ses actifs informatiques, elle conserve plusieurs couches héritées du passé qui compliquent la reprise d’activités après un incident. Une gestion des priorités invite alors à concentrer les efforts sur les éléments critiques pour les métiers, les dépendances systèmes étant gérées par la plateforme d’orchestration : « Nous apportons une meilleure visibilité du processus de reprise avec un tableau de bord de suivi en temps réel, capable de réduire le niveau de stress de l’équipe. Lorsqu’une base de données ou une application ne redémarre pas, les erreurs sont signalées, une demande d’intervention manuelle est suggérée, avant de reprendre là où on en était, jusqu’à la restauration complète. »
La généralisation des accès à haut débit et l’essor du télétravail transforment la reprise d’activité. « La continuité de services profite aussi de la virtualisation des postes de travail. Encore faut-il adapter et mettre à jour son plan dans les règles de l’art. Face à l’évolution rapide des cybermenaces, les organisations doivent repenser leur plan de continuité régulièrement, le redimensionner. Demain, le responsable du PCA déploiera et adaptera un Cyber-PCA au sein de son organisation », prévoit déjà Bruno Hamon.
« Nous préconisons le PCA à base de double datacenter, car les clients testent trop rarement la reprise de leur IT. Les architectures Cloud à haute disponibilité par design vont rendre obsolète le PRA. Avec les microservices, les containeurs déplacent déjà les applications en fonction des aléas de la production, dans un environnement Cloud ou multiCloud. » Kevin Polizzi, président de Jaguar Networks
PARTAGE D’EXPÉRIENCE
L’Ordre de Malte France choisit un PCA externalisé chez Nerim
Anticiper les risques liés aux recrudescences des attaques informatiques contraint l’association reconnue d’utilité publique à revoir ses infrastructures informatiques. « L’idée de bâtir un PRA/PCA est née il y a trois ans dans l’association », se souvient Freddy Moreau, le responsable IT de L’Ordre de Malte France (1 928 salariés et 9 400 bénévoles). Malgré plusieurs salles blanches réparties sur l’Hexagone, des capacités de stockage très variées empêchaient une réplication des données critiques dans un délai de récupération des données acceptable. « Il devenait primordial que nos infrastructures ne soient plus dispersées, mais bien consolidées en un seul endroit pour permettre une intervention rapide en cas d’attaque », poursuit-il. En confiant la gestion de son réseau à l’opérateur Internet Nerim, l’association gagne une infrastructure sécurisée contre les dénis de services distribués, ainsi qu’un plan de sauvegarde et de continuité éprouvé. Cette externalisation est guidée par le besoin de stabilité des applications déployées principalement sur des serveurs HP virtualisés sous VMware.