Problèmes sur la visibilité d’ensemble du trafic des données qui transitent sur les réseaux, risque constitué par le rapprochement des données entre elles… Pascal Beurel, directeur technique Europe du Sud chez Gigamon (spécialiste de la surveillance et de la sécurité du réseau), livre en exclusivité son avis éclairé sur les mégadonnées aux lecteurs de Solutions Numériques.
A la fin des XIX et XXe siècles, les villageois Mélanésiens avaient pour habitude de bâtir de fausses autoroutes de manière rituelle, car ils pensaient qu’elles favoriseraient l’apparition magique de « cargaisons » de grande valeur. Ces pratiques sont à présent appelées « culte du cargo ». Un phénomène qui s’apparente de très près à l’engouement de ces dernières années pour le Big Data ou mégadonnées qui permet de stocker un nombre infini de données dans une base numérique.
Ce concept consiste à prendre d’importantes quantités de données, à les mettre dans un « vivier » dans l’espoir qu’une immense valeur en émerge. Toutefois, en raison de leur incroyable volume, cela conduit malheureusement les organisations à ne regarder que les résultats sans prendre en compte les risques inhérents et présents dans cette base de données. A l’heure actuelle, seules les entreprises avisées s’intéressent, en effet, à la fois à la finalité et aux risques qui accompagnent chaque cas de figure d’exploitation de ces informations.
Le Big Data, quel type de vulnérabilité ?
Tout d’abord, le fait que de nombreuses organisations choisissent de sauvegarder leurs données dans un emplacement unique et accessible via une interface d’analyse offre au pirate informatique un point d’attaque très pratique pour lui, et donc très critique pour les entreprises concernées. En outre, du point de vue de la conformité, au-delà de la concentration des informations au même endroit, le défi est qu’il faut non seulement regarder les données stockées mais également tenir compte du risque que constitue la corrélation des données.
Prenons l’exemple des Forces de Défense Nationale Américaines qui, à une époque, considéraient leur base de données de gestion de la paie comme un document au niveau d’importance critique bas. Elles lui accordaient donc une sécurité moindre. Imaginons que cette logique soit appliquée à d’autres cas, et que les niveaux de salaires reflètent le niveau d’importance critique. Si on prend l’exemple du salaire d’un soldat, on pourrait en conclure son grade d’après le montant qu’il touche. Un revenu élevé pourrait alors signifier qu’il appartient à une unité de service spéciaux. En fonction de ce montant et d’éventuels bonus perçus, nous pourrions également déduire son rang ainsi qu’un éventuel déploiement dans un pays en guerre ; ce qui permettrait potentiellement de conclure que le soldat en question s’y trouve encore en cours de mission. Il s’agit là d’une information d’importance vitale qui devrait être hautement sécurisée et classée secrète car elle pourrait compromettre l’unité entière et le pays, si dévoilée.
C’est une illustration parfaite du genre de menaces que peut représenter la corrélation de certaines données pour une organisation ; et c’est également un problème chronique avec le Big Data. En effet, avec des quantités suffisamment importantes d’informations, leur anonymisation peut être inefficace, la plupart du temps car les modèles de certaines données sont facilement rattachables à un individu. C’est notamment lié au fait que plus elles sont nombreuses, plus le risque qu’elles soient corrélées augmente, et par conséquent, plus les hackers disposent de données à désanonymiser. Un cycle sans fin si on ne voit pas ce que contient la base de données. Car pour sécuriser correctement et efficacement une infrastructure, il faut être en mesure de voir ce qui s’y trouve.
Or, les entreprises ne disposent pas toujours du temps et des ressources suffisants pour voir en détail l’ensemble du trafic des données qui transitent sur leur réseau. Pour résoudre cela, elles peuvent s’appuyer sur les métadonnées qui leur permettent de bénéficier d’un contexte plus précis autour des données. Cela leur permet alors de mieux identifier les problèmes potentiels et de signaler toute anomalie en transmettant ces détails aux solutions de SIEM, de forensic et autres outils d’analyse de sécurité des Big Data. Celles-ci prendront le relais et seront en mesure d’identifier une anomalie plus rapidement. En gardant l’exemple du SIEM, qui consiste à examiner, à partir d’une console unique, les données relatives à la sécurité de l’entreprise générées en de nombreux points du système, on peut facilement imaginer que l’organisation garde avec cette approche une longueur d’avance sur le hacker, en corrélant les données avant lui !
Big Data et conformité
Dans ce contexte de profusion de la data, le règlement européen pour la protection des données personnelles (RGPD) semble soulever un véritable problème. Il est difficile en effet d’imaginer comment une organisation avec une base de données, même anonymisées, peut objectivement respecter les exigences de ce règlement, dans des délais si courts. Par exemple, en cas de cyberattaque, les entreprises ne disposant que de 72h pour reporter une faille, elles ne seront probablement pas en mesure d’identifier aussi rapidement les dommages causés par un piratage, les données impactées, ni les conséquences sur les tiers – c’est-à-dire le risque qu’un hacker ait pu corréler toutes leurs données.
En résumé, les organisations accumulent de très grandes quantités de données dans l’espoir qu’une future valeur business en ressortira. Ce qui reste un pari risqué sans la mise en place préalable d’une stratégie de sécurité et d’une visibilité complète sur les réseaux. Et dans le cas des mégadonnées, une vision claire du contenu de la base constituera le meilleur moyen d’assurer la gestion des données la plus optimale, mais également des risques associés à la réconciliation d’informations pouvant servir les intérêts malveillants d’un hacker.