État des lieux
Avant de souhaiter protéger l’information, il est nécessaire de connaître la valeur de celle-ci et de l’identifier. Les solutions de classification de l’information trient les documents en fonction de leur sensibilité. Un projet complexe, mais indispensable !
Classifier les données revient à décider de la valeur de chaque information créée par l’entreprise. Ou plutôt de l’impact sur l’activité si cette information venait à être rendue publique. Tel document doit-il être réservé à un groupe restreint (secret, pour la direction générale) ? Doit-il être conservé en interne, ou peut-il être communiqué à l’extérieur?
Il revient à l’entreprise d’élaborer son plan de classification en fonction de critères qui lui sont propres (ce qui représente un projet à part entière !), et ensuite à l’outil de matérialiser cette classification. Il le fera en marquant le document.
Le marché propose deux approches pour cela. Il y a d’abord des outils mis au service des utilisateurs. Ces derniers peuvent étiqueter chaque document au moment de sa création, selon les critères de sensibilité définis à l’avance dans le plan de classification. Ces outils s’intègrent notamment aux clients emails ou aux outils de la suite Microsoft Office afin de classifier les documents à la source. Evidemment, cela implique que les utilisateurs soient en mesure d’appliquer sans erreur la politique de classement de l’information de l’entreprise, ce qui n’est jamais une certitude.
Classification automatique avec supervision
D’autres produits tentent plutôt de procéder à une classification automatique. Ils explorent eux-mêmes les stockages de fichiers et se basent alors sur de nombreux critères tels que le contenu du document (analyse sémantique, mots clés), son emplacement de stockage (quels droits d’accès ?), son auteur (quel rôle dans l’entreprise ?) ou encore ses métadonnées (produit par quel service ?). Une fois marqué, le document pourra alors être contrôlé, notamment par une solution de prévention des fuites de données (DLP).
Hélas, comme avec tout traitement automatisé, la question des faux positifs se pose alors et une revue manuelle demeure nécessaire. Toutefois, grâce aux progrès de l’apprentissage automatique (machine learning) ces solutions peuvent désormais apprendre au fur et à mesure qu’elles sont prises en défaut. Cela donne l’espoir, à terme, de disposer d’un processus de classification entièrement automatisé.
Un marché pas seulement tourné vers la sécurité
Les outils de la classification des données ne sont pas seulement tournés vers la sécurité. C’est d’abord un marché de gestion documentaire. Les premières solutions étaient destinées à gérer la production documentaire : détecter les doublons, optimiser les archives… Elles mettaient de l’ordre dans le chaos en reclassant de manière pertinente tous ces documents créés par les collaborateurs et stockés n’importe où !
Ce n’est que plus tard, notamment avec la montée en puissance de la réglementation concernant la protection des données personnelles, que l’univers de la sécurité des systèmes d’information s’est intéressé de près à la classification.
Fuite de données et RGPD
Aujourd’hui, ces solutions contribuent à la sécurité de l’entreprise sur deux plans : d’abord intégrées à des solutions de détection des fuites de données (DLP, pour Data Leak Prevention) et plus récemment dans le cadre du prochain règlement européen sur la protection des données à caractère personnel (RGPD). Pour ce dernier, l’entreprise doit être en mesure de détecter rapidement et aisément les données personnelles dispersées à travers ses systèmes, afin de les protéger ou les détruire. Et les solutions de classification sont idéales pour cela.
Attention à ne pas se laisser déborder !
Toute solution de classification de données doit faire face au défi du volume : il n’est pas rare que le rythme de production du contenu dépasse la capacité de l’outil à découvrir et trier les nouveaux documents ! Pour cela certains éditeurs proposent une approche multi-niveaux : la solution est déployée à la fois sur le réseau (exploration des stockages et partages de fichiers), mais également sur les postes de travail, où le client local détecte la création d’un document Microsoft Office et l’indexe immédiatement.