L’écosystème du traitement des données en très grands volumes (Big Data) est en pleine transformation. Il tire les enseignements de l’apparition du Règlement Général pour la Protection des Données (RGPD) et du Covid-19. Ces 2 facteurs ont changé la donne, rendant beaucoup de données inutiles selon Gartner, qui préconise de passer au « Small & Wide Data ».
Symbolisant le traitement des données en très grands volumes, le « Big Data » est une source de fantasmes, mais aussi de cauchemars pour beaucoup de personnes. D’ailleurs, son nom n’est pas sans évoquer celui de “Big Brother”, le terrifiant personnage de fiction du roman 1984 de George Orwell, qui bafoue les libertés fondamentales et la vie privée des individus.
Force est de constater que la réalité dépasse parfois la fiction. De nombreux scandales liés aux vols ou aux traitements abusifs de données personnelles en grands volumes font régulièrement la Une des médias. Par exemple, Facebook (Meta) a reconnu début 2021 une fuite concernant les données de près de 500 millions de ses utilisateurs, dont 20 millions de Français. L’agence de marketing Cambridge Analytica avait “volé” en 2015 les données d’environ 87 millions d’utilisateurs au moyen de quiz musicaux dans le but de les profiler politiquement. Ces nombreux abus ont encouragé la Commission nationale de l’informatique et des libertés (Cnil) et ses homologues européennes à délivrer plus souvent des amendes salées aux sociétés qui ne protègent pas assez bien les données à caractère personnel de leurs utilisateurs, ou qui en abusent.
RGPD et Big Data : réconcilier les champs d’action
Cette nouvelle fermeté des autorités donne des sueurs froides aux entreprises, qui tentent de valoriser les données à caractère personnel des clients et prospects qu’elles collectent, tant sur les plans marketing que commercial. D’autant que leurs traitements sont encadrés beaucoup plus strictement en Europe depuis 2018 par le Règlement Général pour la Protection des Données (RGPD), et bientôt par l’ePrivacy Act européen.
Le champ d’action de ces textes de loi européens étant vaste, ils sont défavorables a priori aux larges traitements des données opérés par le Big Data. En tout cas, il freine son automatisation et sa généralisation.
« Par exemple, quand une IA lance une recherche générique ou opère un classement des données stockées avec un algorithme dont l’apprentissage a été trop automatisé et pas assez supervisé, elle ne cherche pas quelque chose de précis. Ce traitement est donc non valide au sens du RGPD, loi qui précise qu’il doit avoir une finalité, surtout pour la gestion des données personnelles » rappelle Paul-Olivier Gibert, le président de l’ Association Française des Délégués à la Protection des Données (AFCDP).
Alors, comment une entreprise peut-elle tirer le meilleur parti de ses données en toute légalité dans ces conditions, surtout si elle ne connaît pas forcément leur forme et leur structure en amont ? Une tâche difficile car le champ d’action et la nature du traitement des données qu’opère le Big Data est tout aussi vaste en théorie que celui du RGPD.
Paul-Olivier Gibert leur recommande de « nommer a minima un Délégué à la Protection des Données (DPO) et d’avoir la connaissance la plus fine possible des zones d’ombre de leur système d’information, où beaucoup de données sont inconnues, afin de réduire les risques de non-conformité juridique. Je conseille également de cartographier les données en adaptant la granularité aux vrais besoins des métiers et de la DSI ».
La moitié des données des entreprises seraient des “dark data” inutilisées
Travailler de concert pour concilier ce cadre législatif strict avec les traitements opérés par les outils Big Data est donc un vrai casse-tête pour les directions informatiques, juridiques et marketing. Leur utilisation en conformité avec le RGPD soulève des questions de conformité aux législations, mais aussi de gestion pérenne des données dans la durée comme le souligne encore Jean-Pierre Boushira, VP Europe du sud, Benelux & Scandinavie de Veritas :
« En plus d’encourir de lourdes amendes – en cas de traitement approximatif ou illicite des données -, les entreprises peuvent parfois perdre, on le voit, la trace de certaines de leurs données ou tout simplement ne pas avoir conscience de leur existence. En effet, chaque entreprise stocke des volumes impressionnants de données qu’elles n’utilisent tout simplement pas ou plus ».
Cette production et ce stockage quasi “compulsif” des données à très grande échelle inquiètent des experts car elle complexifie leur traitement et elle met en péril la valorisation des données. Selon une étude Teradata et Celebrus de 2021, 61 % des entreprises ont des difficultés à capturer et à comprendre les données numériques relatives à leurs clients.
Et la situation empire chaque année car la volumétrie des données produites et leur variété augmente énormément. En 2020, IDC évaluait déjà la quantité de données numériques générées dans le monde à 64 zettaoctets (soit 64 000 milliards de gigaoctets). Pire, le cabinet estime que ce chiffre atteindra 179 zettaoctets en 2025 ! Et pour cause, les systèmes de calcul et de stockage dans le cloud sont encore bon marché et quasi illimités aujourd’hui.
Le résultat final n’est pas brillant, selon Jean-Pierre Boushira : « La moitié des données détenues par les entreprises seraient des “dark data” inutilisées. En plus d’être stockées sur différents systèmes de stockage, les données ne sont ni identifiées ni valorisées par les entreprises » constate-t-il. Ces “Dark Data” peuvent être des documents papier, des photos ou des vidéos non répertoriées car elles ne semblent pas essentielles sur le moment à l’entreprise. Il recommande l’utilisation d’un logiciel qui analyse et trace automatiquement les données, puis émet des rapports sans intervention humaine. « Ces pratiques permettent notamment de montrer la bonne volonté de l’entreprise quant au respect de la réglementation RGPD tout en apportant des réponses aux questions relatives à la sécurité et à l’utilisation des données ».
La pandémie et le RGPD ont changé la donne
Au vu de la situation, Gartner considère qu’il est temps de passer du “Big Data”au “Small & Wide Data”. Ce concept Gartner date un peu mais il l’a remis au goût du jour. En effet, le cabinet d’études estime que la donne a changé pour le Big data suite à l’apparition du RGPD et surtout du Covid-19. « La pandémie a tout changé, rendant beaucoup de données inutiles » estiment ses analystes. Dès 2021, ils expliquent déjà que les entreprises dont les modèles reposent sur le traitement en larges quantités de données historiques ont réalisé avec la pandémie que la plupart de leurs modèles ne sont plus pertinents.
Le cabinet d’études recommande donc d’adopter un traitement des données plus frugal et plus ciblé, compte-tenu de l’évolution réglementaire et des mentalités, ainsi que du potentiel limité de certains outils Big Data existants. Le “Small & Wide Data” prévoit également de favoriser la diversité des sources de données. Le concept du Gartner recommande aussi d’ajouter de la responsabilité et de l’éthique aux traitements des données afin de mieux préserver la vie privée des personnes. Une tendance qui trouvera des adeptes à l’heure où le secteur du numérique doit se conformer aux nouvelles réglementations en vigueur, dont le RGPD en Europe.
L’avènement de cette loi a aussi révélé aux directions générales certaines limites du Big Data, dont une trop grande complexité de ses outils et de ses processus de traitement. Constat auquel il faut ajouter des projets souvent interminables et des résultats encore peu exploitables par les métiers. Un an après la sortie du RGPD en 2018, Gartner prédisait déjà que seules 20 % des informations issues des logiciels analytiques auraient un vrai impact économique pour l’entreprise d’ici à 2022. Raison sans doute pour laquelle la moitié des 173 entreprises françaises, dont une majorité de PME, sondées début 2022 par le Medef et le cabinet Boston Consulting Group (BCG), n’ont pas démarré et ne réfléchissent pas encore à la valorisation de leurs données…
Les IA traditionnelles seraient dépassées
Autre constat du Gartner, les Intelligence Artificielle (IA) traditionnelles utilisées pour le traitement massif des données historiques seraient dépassées dans le monde post-Covid et du RGPD. Ses analystes estiment que les IA doivent donc être plus “intelligentes” qu’avant et se contenter de moins de données, grâce à ce que ses analystes appellent les techniques d’ “ adaptative machine learning”. C’est, avec le “Small & Wide Data”, l’une des 10 recommandations du cabinet d’études pour 2022.
Pour finir sur une note positive, Felipe Henao Brand, responsable marketing produit EMEA de Talend, relève que « l’introduction du RGPD a amélioré la compréhension de la donnée dans les entreprises et la manière d’en extraire de la valeur. Elles sont mieux armées aussi pour choisir les bons outils et processus afin de cataloguer et traiter leurs données en respectant la législation. Il y a plus de transparence dans le Big Data pour elles au final ».
Qu’est-ce que le Big Data ?
> Le terme Big Data désigne les données elles-mêmes et /ou les opérations menées sur leur traitement. Pour travailler cet ensemble très volumineux de données, l’entreprise doit utiliser des méthodes analytiques et des outils d’apprentissage automatique, voire des solutions d’intelligence artificielle (IA).