Accueil Cybersécurité Expertise – La classification des données, une étape majeure dans la sécurité...

Expertise – La classification des données, une étape majeure dans la sécurité de l’information

P-L Lussan
Pierre-Louis Lussan

Selon IDC, les données mondiales devraient atteindre 175 zettaoctets d’ici 2025, un volume en grande partie généré par les entreprises. Dans le même temps, de nombreuses organisations s’efforcent de déterminer les données qui sont sensibles, ainsi que leur emplacement, afin de garantir un niveau de protection adéquat. Pierre-Louis Lussan, Country Manager France et Directeur South West Europe chez Netwrix, développe ici l’idée que la classification des données est une étape majeure dans la sécurité de l’information.

La classification des données peut répondre à cette problématique en permettant aux équipes IT de repérer en continu les fichiers sensibles, de les étiqueter en fonction de leur sensibilité et d’appliquer des contrôles de sécurité fondés sur leurs étiquettes de classification. Cependant, la complexité des flux de données dans les entreprises modernes complique la tâche des professionnels de la sécurité qui doivent s’assurer que les politiques sont respectées, et que toutes les données sensibles sont classifiées et protégées de manière adéquate. Il est donc essentiel pour les organisations d’envisager diverses approches de classification des données afin de trouver celle qui est la plus efficace, la plus précise et la plus facile à utiliser.

Différentes approches de la classification des données

La technologie de classification des données découle de la gestion des connaissances, où elle aide les organisations à gérer leur contenu d’entreprise. Désormais, elle est appliquée au domaine de la sécurité des données. Cela est dû en grande partie aux réglementations qui obligent les organisations à définir leurs informations personnellement identifiables (IPI), leurs informations sanitaires protégées (ISP) et d’autres données sensibles, afin de les distinguer des immenses quantités d’actifs à contenu non sensible. Il est donc essentiel que les professionnels de la sécurité connaissent les différents types de classification des données ainsi que leurs limites.

  • Axée sur l’utilisateur (manuelle). Il n’est pas recommandé aux organisations d’opter pour ce type de classification de manière isolée. Lorsque les utilisateurs sont forcés d’étiqueter les données manuellement, ils ont tendance à choisir l’option en tête de liste dans le seul but de pouvoir passer à autre chose rapidement, ce qui se solde par des résultats médiocres de classification. Toutefois, cette méthode fonctionne correctement lorsqu’elle est utilisée à titre complémentaire pour des catégories de données propres à l’entreprise.
  • Axée sur des règles (automatisée). Ce type de classification des données repose sur des mots-clés et un ensemble de règles « SI-QUAND ». Cette méthode fonctionne mieux lorsque les définitions des catégories sont formalisées, comme celles des données à caractère personnel qui relèvent du RGPD. Elle est cohérente et précise. Cependant, dans la mesure où les données de chaque organisation sont uniques et peuvent difficilement être normalisées par des règles intégrées, cela peut conduire à des faux positifs et négatifs. Par conséquent, cette approche exige qu’un responsable de la sécurité gère des dizaines de règles, avec, malgré tout, un risque résiduel de surexposition d’informations importantes.
  • Machine learning (automatisée). La classification des données fondée sur l’apprentissage machine, ou machine learning, est facile à mettre en œuvre et à déployer. Cependant, elle nécessite des ensembles de données de qualité optimisés, avec un algorithme efficace et adapté aux besoins de chaque organisation. En l’absence de données suffisantes, son exactitude sera limitée. Les résultats axés sur les probabilités, qui ne peuvent être facilement corrigés sans une maintenance dédiée, constituent d’autres limites.
L’approche gagnante : une combinaison de différents types de classification des données

Les organisations ont tout intérêt à adopter une approche mixte, en incorporant des méthodes fondées sur des règles et des méthodes de machine learning. Si une entreprise stocke des données sensibles classiques, telles celles régies par le RGPD, ainsi que des données complexes (propriété intellectuelle, par exemple) ou encore des données financières, une telle technologie avancée de classification permettra dans les deux cas d’établir des taxonomies.

Prenons l’exemple d’une entreprise qui souhaite que sa technologie de classification distingue les cartes de crédit à 16 chiffres comme données relevant du RGPD et du PCI DSS, de certains fichiers contenant des numéros d’unités de stock à 16 chiffres, ou d’autres éléments ayant une numérotation similaire, mais qui ne sont pas sensibles. Pour ce faire, un système basé sur le machine learning va être capable de proposer des paramètres supplémentaires, tels que les étiquettes « VISA » ou « MasterCard », puis attribuer une pondération à chacune d’entre elles dans la taxonomie et effectuer une analyse précise. En outre, la classification avancée des données permettra aux entreprises de créer une taxonomie spécifique intégrale pour identifier la propriété industrielle de leur organisation, comme des plans marketing ou des plans directeurs. Grâce à sa capacité d’apprentissage machine, elle s’appuiera sur les ensembles des informations existantes et proposera des indices adaptés aux données organisationnelles complexes. L’étiquetage manuel peut quant à lui convenir à des problèmes spécifiques.

Grâce à la visibilité des données sensibles, l’équipe de sécurité peut s’assurer qu’elles sont conservées en lieu sûr, que seuls les employés habilités y ont accès, et peut ainsi concentrer ses efforts sur des données réellement précieuses, notamment par des contrôles de détection et une surveillance du comportement des utilisateurs. De plus, la classification avancée peut renforcer la précision des politiques de prévention des pertes de données (Data Loss Prevention – DLP) des entreprises. Lorsqu’elle est combinée à une solution DLP, elle permet de réduire au minimum les efforts inutiles de sécurisation des éléments non sensibles étiquetés par erreur. En outre, cette approche améliore la qualité de la formation des employés en matière de cybersécurité. Elle permet en effet de définir facilement les types de données traitées par les différentes équipes et de créer des formations ciblées, adaptées aux besoins spécifiques des utilisateurs finaux.

L’industrie de la sécurité de l’information s’entend généralement sur le fait que nous sommes passés d’une défense périmétrique à la sécurité des données. Toutefois, nous devons certainement nous attendre à une hausse de la demande en faveur de technologies qui permettront aux entreprises de gagner du temps dans l’identification des données dont elles disposent, et de rationaliser leurs efforts de protection. Il s’agit d’une excellente nouvelle, non seulement pour les responsables de la sécurité et les équipes IT, mais aussi pour l’ensemble du secteur. Après tout, une stratégie de gouvernance des données bien organisée présente un double avantage, la réduction du risque de failles de sécurité et l’amélioration de la productivité es employés.