Accueil Expert Avis d’expert – Dark Data : le trou noir dans l’univers des données

Avis d’expert – Dark Data : le trou noir dans l’univers des données

Engrenage données
Engrenage data

La croissance exponentielle des données présente à la fois des opportunités et des défis pour les entreprises. Les données « sombres » en particulier sont un obstacle pour les technologies futures. Sébastien Trivella, Associate Partner de Magellan Consulting en charge de l’activité IA et DATA, explique les “Dark Data”.
 
 

Dark Data : menace ou opportunité pour les entreprises et institutions ?

Dans un monde en profond bouleversement par l’Intelligence Artificielle, dont la donnée est le principal carburant, les Dark Data sont, avant tout, une formidable opportunité d’innovation pour les entreprises. Lorsque l’on sait que seuls 20 % des données de l’entreprise sont exploitées (contre 80 % de Dark Data selon une étude IBM) et que l’on voit ce que l’on parvient déjà à faire avec cela, on imagine aisément le potentiel s’il était possible d’exploiter ne serait-ce que partiellement les Dark Data.
Mais attention, ces Dark Data viennent également avec leur lot de challenges :

  • Risque pour une entreprise de se « perdre » dans les méandres et la complexité des Dark Data ;
  • Risque sécuritaire et/ou règlementaire face à l’ouverture d’une telle boite de Pandore ;
  • Risque environnemental et financier face à l’empreinte carbone que représentent aujourd’hui le stockage de ces Dark Data mais demain encore plus leur exploitation…

Enfin, à un niveau plus global et sociétal, ces Dark Data (qui peuvent souvent être les données les plus controversées telles que les habitudes de consommation, la localisation GPS, nos activités sur les réseaux sociaux, etc.) posent la question de l’éthique des usages et du droit de regard de chacun sur ses données personnelles qui sont l’empreinte numérique de notre vie privée.

Les données qui font partie des Dark Data

Le patrimoine informationnel d’une entreprise se divise en différentes catégories de données :

  • Les Master Data qui sont les données les plus stables et les plus transverses de l’entreprise (référentiel organisationnel, liste d’employés, d’établissements, d’articles, etc.)
  • Les données décisionnelles qui sont des données (structurées à 90 %) produites à partir de données opérationnelles, utilisées à des fins d’analyse et de pilotage d’activité (chiffres de ventes, évolution de chiffre d’affaires, suivi de production, taux de panne etc.) ou de communication.
  • Les données opérationnelles qui sont les données produites par les processus métier de l’entreprise dans un cadre d’activité normal (détail d’une vente, déclaration de sinistre, transaction bancaire, données issues de capteurs sur une chaine de production, etc.)
  • Le reste, c’est-à-dire l’ensemble des autres données et informations nécessaires à la bonne marche de l’entreprise (ou résultante de son activité), qu’elles soient numériques ou pas d’ailleurs…

Les approches de Business Intelligence traditionnelles s’appuient sur la consolidation (au sein d’entrepôts, les Data Warehouse) de données opérationnelles structurées (valeurs alphanumériques) au volume raisonnable, afin de produire des indicateurs décisionnels. Le Big data est venu étendre cette capacité en permettant, cette-fois ci au sein de lac de données (Data Lake), le traitement de données de différents types (structuré comme semi-structuré tel que du texte en langage naturel, voir non structuré : image, vidéo, son, etc.) et dans des volumes beaucoup plus importants.

Pour autant, posséder la technologie ne signifie pas que l’entreprise ait les moyens de collecter toutes les données, et encore moins de les utiliser. Les Dark Data se définissent donc comme ce sous-ensemble du Big Data correspondant aux données qui sont soient produites mais non collectées, soit collectées mais non exploitées. Ce qui en fait la particularité, c’est qu’elles peuvent revêtir différentes formes : il peut s’agir bien sûr des données non utilisées, mais également des données périmées (celles qui ne sont exploitables ou qui ont un intérêt que sur une période de temps déterminée), ou encore des données doublonnées…

Récupérer les Dark Data et en profiter 

La complexité avec les Dark Data est multiple : elles sont extrêmement volumineuses, très mal connues et ont des natures ou formats très hétérogènes, souvent difficile à exploiter. Pour y remédier il faut conjuguer :

  • Gouvernance de donnée ;
  • Outillage et compétences spécifiques ;
  • Culture de la donnée et approche self-service.

La gouvernance de donnée est la pierre angulaire de toute gestion saine et efficace de l’information, quel que soit le type de données. Plus celles-ci sont stratégiques et transverses, plus la gouvernance appliquée devra être forte et exhaustive. A l’inverse, même pour les Dark Data, les cataloguer à minima et répertorier leur localisation permettra de prendre conscience de leur existence (première difficulté avec les Dark Data) et ainsi de pouvoir les utiliser.

Les Dark Data étant pour la plupart soit très difficiles d’accès, soit semi ou non structurées, elles nécessitent des compétences et des techniques particulières (data science, NLP, analyse d’image, etc.) pour en tirer profit. Les outils peuvent aider (notamment sur des cas d’usages très ciblés) mais ne permettent pas d’adresser intrinsèquement, sans ajout d’intelligence humaine, la variété des usages qu’il est possible de faire de ces données. En revanche, ils peuvent être particulièrement accélérateurs dans la collecte, l’exploration et le pré-traitement de ces données.

Enfin, il faut une culture d’entreprise orientée Data, pour inciter au partage des données, à la prise de décision par la donnée et au réflexe analytique. Une telle dynamique va ainsi multiplier les opportunités d’exploitation des données, et faire monter en maturité toute l’organisation pour tendre vers des pratiques de plus en plus avancées, en phase la complexité que revêtent les Dark Data. La diffusion de cette culture passe notamment par la démocratisation du self-service Data, c’est-à-dire la capacité pour chacun de pouvoir de lui-même travailler la donnée. Une approche qui s’impose à la fois au processus de travail, à la DSI et aux outils…

Quel rôle pour la gestion de données durable ?

Une gestion durable et responsable des Dark Data est nécessaire pour limiter leur empreinte environnementale déjà conséquente.

Il y a 2 facteurs principaux à l’explosion des Dark Data :

  • Les applications métier (notamment dans le Cloud en SaaS) viennent naturellement par construction avec des mécanismes de stockage et de persistance de la donnée : cela ne représente donc pour les entreprises clientes aucun coût financier ou humain supplémentaire de les mettre en place (et c’est au contraire la purge des données qui nécessite de l’investissement).
  • Tout ce qui n’est pas stocké est perdu. Les données étant considérées comme le nouveau pétrole, les entreprises peuvent avoir le réflexe de stocker en vue d’usages ultérieurs même si la maturité n’est pas encore là aujourd’hui (et d’autant que les coûts de stockage sont très faibles…).

Cependant, l’expérience montre que plus les données sont nombreuses et plus elles nécessitent des pratiques de gouvernance maitrisées pour être exploitables, ou il est probable de s’y perdre. Il vaut mieux peu de données à fort potentiel (smart data) qu’une immensité de données mal exploitables. De plus, avant même d’avoir à trancher dans les données valorisables, il est possible de s’attaquer aux données inutiles (données périmées, doublons, calculs intermédiaires, etc.).

Enfin, une démarche de centralisation des données, dans un lac de données par exemple, peut se révéler très vertueux à plusieurs égards :

  • Il permet d’optimiser l’exploitabilité des données en les regroupant en un seul endroit et ainsi en facilitant leur accès et leur croisement.
  • Une fois centralisées, les données peuvent alors être purgées des applications métier.
  • Il est plus facile de protéger et de sécuriser les données en un seul endroit (à l’image d’un coffre-fort) que dans de multiples applications disparates qui ont toutes leurs spécificités et sont des applications métier et donc pas par essence des solutions spécialisées en traitement de la donnée).
  • La gouvernance, le catalogage et la description des données sont également simplifiés.
  • Enfin, une telle approche permet de rationaliser et optimiser les coûts de stockage : à la fois par effet de mutualisation, mais également en adaptant les modes de stockage (on ira par exemple chercher, pour les données froides telles que les Dark Data, des technologies dites d’archivage qui auront pour effet de rendre moins facile d’accès la donnée, mais en contrepartie d’être moins chers et moins énergivores)

L’impact des Dark Data sur l’environnement et la protection des données

Qui dit données numériques dit stockage, datacenters et donc consommation énergétique. De par leur volume et leur prolifération, c’est encore plus exacerbé pour les Dark Data. Cela représente donc un enjeu environnemental fort, mais pas nécessairement financier dans la mesure où en l’état actuel du prix de l’énergie très largement subventionné et sous-évalué, le stockage de données se révèle très peu onéreux.

En revanche, cela pourrait changer à la faveur de trois facteurs concomitants : le volume des Dark Data augmente exponentiellement d’année en année ; plus les exploiter nécessite encore plus d’énergie que de simplement les stocker  alors que le prix de l’énergie a tendance à augmenter ; avec l’éveil de la conscience écologique, les politiques sont plutôt au durcissement des règles environnementales.

Cette évolution doit être anticipée par les entreprises d’autant plus que leur stockage de données se fait très majoritairement dans le Cloud, qui se paye directement au volume de données et à la consommation d’énergie.      

Enfin, sur le volet de la protection des données, les Dark Data posent aussi des challenges majeurs. Si aujourd’hui le risque est limité car elles ne sont que très peu exploitées et donc peu visibles, leur utilisation de plus en plus développée va amener à une exposition de plus en plus grande et, de ce fait, à un risque à la fois légal (normes règlementaires, RGPD, CNIL, etc.) et sécuritaire (cyberattaque, fuite d’information, etc.).