e-Discovery et Machine Learning : les entreprises françaises sont aussi concernées

21 septembre 2023

AVIS D’EXPERT – Par Daniel de Prezzo, Head of Technology Southern Europe chez Veritas Technologies.

L’e-Discovery est un ensemble de bonnes pratiques que les entreprises peuvent appliquer pour se préparer ou se prémunir de potentiels ennuis juridiques. Elles visent principalement à archiver les documents et les informations de manière conforme à différentes réglementations ainsi qu’à explorer proactivement les données collectées pour y détecter de potentiels risques juridiques ou se préparer en cas de litige.

D’ici 2025, le monde génèrera une quantité phénoménale de données, atteignant les 175 zettaoctets selon IDC. La mise en place d’une procédure d’e-Discovery est donc un défi de plus en plus dur à relever. Pour fonctionner, elle doit pouvoir s’intégrer aux systèmes de gestion électronique de documents (GED) de l’entreprise. C’est donc par ces solutions qu’il faut commencer. Pour aller plus loin, les entreprises peuvent s’appuyer sur des technologies de classification automatique et de « sentiment analysis », qui elles même reposent sur du Machine Learning.

Reprenons les bases

Avant d’introduire du Machine Learning (ML), il faut bien comprendre les différents outils utilisés. Le sentiment analysis (également connu sous le nom d’analyse des émotions) utilise le langage naturel (NLP) pour identifier et extraire des informations subjectives à partir de sources dématérialisées sur de grandes quantités de données. Cette technique détermine l’attitude, le sentiment ou l’émotion d’un sujet sur la base d’un support oral ou écrit. Cette analyse des sentiments peut être appliquée à une grande variété de données et peut fournir à une entreprise une mine d’informations notamment sur ses clients, ses produits, et sa marque. La forme la plus simple de cette technique est la classification binaire (positive ou négative), mais elle peut également impliquer des classifications plus nuancées. Une fois le sentiment déterminé, les résultats sont interprétés pour générer des informations. Cela permet d’identifier des tendances dans le temps, de comparer le sentiment entre différents groupes démographiques, etc.

Quant à la classification automatisée des données, cette technique utilise des algorithmes avancés et des modèles ML pour organiser rapidement les informations dans des catégories prédéfinies, sans intervention humaine. Ce processus permet de découvrir des schémas (patterns) de référence récurrents et d’extraire des informations précieuses à partir de grandes quantités de données, simplement et efficacement. Cette approche fait généralement appel à des technologies innovantes (comme la reconnaissance d’images), et à d’autres outils basés sur l’IA et le ML. Maintenant que ces deux notions sont plus claires, il sera plus facile de comprendre l’intégration de ces techniques en amont d’une procédure d’e-Discovery.

L’intégration de l’analyse des sentiments en début de chaîne

Pour que les entreprises puissent mener plus efficacement leur procédure d’e-Discovery, il est intéressant de l’enrichir par une analyse des sentiments dès le début du déploiement. Elles peuvent commencer par hiérarchiser leurs documents. Bien que l’analyse des sentiments puisse aider à réaliser cette tâche et appliquer un filtre en fonction de la tonalité, il faut d’abord s’assurer que les documents contiennent des informations pertinentes. Ceux qui présentent un sentiment particulièrement négatif peuvent constituer des preuves, et ainsi être répertoriés judicieusement. De plus, l’analyse des sentiments peut identifier des étapes notables lors d’échanges. Que ce soit une escalade de sentiments négatifs entre deux parties ou un changement soudain de ton correspondant à des événements clés ; ces éléments peuvent illustrer des temps forts permettant de retracer les faits d’un cas litigieux.

Outre ces analyses, cette technique s’avère utile pour identifier les documents qui nécessitent un examen plus approfondi au sein d’une grande quantité de documents – évitant ainsi d’être noyé dans la masse d’informations. Par exemple, elle peut signaler les emails présentant un fort sentiment négatif pour un examen plus approfondi. De ce fait, cela permet aux entreprises d’éviter des litiges proactivement et d’identifier de potentiels problèmes avant qu’ils ne dégénèrent. On pense effectivement à des cas avec des protagonistes externes à l’entreprise (clients ou prestataires), mais cela peut aussi s’appliquer en interne et ainsi prévenir une situation de harcèlement, de discrimination ou autres formes de comportements inappropriés au travail.

La classification automatique, ou le pilier de la gouvernance de l’information

La création de règles de classification automatique personnalisables joue un rôle majeur – que ce soit pour une procédure d’e-Discovery ou plus globalement pour la gouvernance des données d’une entreprise. En effet, cette classification automatique peut identifier des données sensibles, telles que des informations personnelles identifiables (PII) ou des informations de santé protégées (PHI). En signalant ces données, les entreprises peuvent s’assurer qu’elles les traitent correctement, ce qui réduit le risque de violations ou de non-conformité règlementaires.

Notons également que les entreprises stockent une quantité faramineuse de données redondantes, obsolètes et/ou inutilisées sans valeur pour leurs activités. En remédiant à ces dark data avant le lancement d’une recherche, l’entreprise économisera un temps considérable et de l’argent dédiés à la gestion du stockage ou lors de la procédure d’e-Discovery. Par ailleurs, les règles de classification automatique peuvent aussi prendre en charge l’analyse des sentiments et la détection du langage, et ainsi développer des workflows personnalisés pour faciliter la recherche de documents et d’informations.

Ainsi, au travers de la compréhension et de l’intégration de technologies de pointe et de processus, la gestion des données et leurs utilisations peuvent s’avérer plus efficaces et bénéfiques pour les activités d’une entreprise. En matière de Big Data, les entreprises peuvent donc s’inspirer des mesures d’e-Discovery en intégrant cette procédure en amont du cycle de vie de leurs GED, anticiper des situations problématiques en amont et éviter une cascade de soucis. Au quotidien et à long terme, les avantages découlant du e-Discovery peuvent être bénéfiques pour chaque acteur lié à l’entreprise.

Daniel de Prezzo

Reprenons les bases

L’intégration de l’analyse des sentiments en début de chaîne

La classification automatique, ou le pilier de la gouvernance de l’information

Jean-Noël de Galzain, président d'Hexatrust : "La souveraineté c'est aussi anticiper l'avenir"