AVIS D’EXPERT – Big Data : vers une logique Data Centric

7 mars 2016

David Fala, directeur practices Big Data et Data Intelligence de Micropole

L’entreprise doit modifier son approche actuelle de la donnée, héritée de 20 ans de culture de la Business Intelligence, et traiter l’information au plus proche de la donnée, soutient David Fala, directeur practices Big Data et Data Intelligence de Micropole. Ses explications.

S’il est acquis que la création de valeur passe par l’exploitation de la « Data », il est important pour l’entreprise, à l’ère du Big Data, de se poser les bonnes questions quant à sa capacité à identifier, capter, analyser la donnée, mais surtout quant à sa capacité à en percevoir sa valeur pour elle-même, ses clients, ses fournisseurs ou ses partenaires.

En adoptant une vision Data Centric, l’entreprise se met en capacité de tirer de la valeur de toutes les données, qu’elles soient blanches (internes), grises (externes) ou noires (Dark Data : données présentes en masse au sein des entreprises mais non exploitées). Or pour y arriver, l’entreprise doit modifier son approche actuelle de la donnée, héritée de 20 ans de culture de la Business Intelligence.

Les architectures d’analyse de la donnée présentes au sein des entreprises sont le plus souvent construites suivant un même modèle. Des outils de collecte des données les déversent dans un espace de stockage où elles seront nettoyées et mises en conformité, pour finalement être stockées dans un DataWarehouse, afin qu’elles puissent être analysées par des utilisateurs grâce à des solutions de Business Intelligence.

Une vision est issue de la Business Intelligence

Les frontières de la donnée et de l’analytique sont donc cantonnées à un périmètre contenu et maîtrisé par l’entreprise. L’ensemble du processus ayant pour objectif de répondre à des questions posées sur des données connues.

Si l’entreprise sait anticiper la valeur liée à l’exploitation des données blanches, qu’en est-il de l’exploitation des données grises et des Dark Data puisque par définition, elle n’est pas préparée pour accueillir ces données, et encore moins pour en déterminer leur valeur ?

Pour que l’entreprise se mette en capacité de tirer de la valeur de toutes les données, c’est-à-dire tout collecter, tout stocker et tout analyser, elle doit modifier son approche de la donnée.

La logique actuelle consiste alors à mettre en œuvre une plateforme Big Data afin d’y déployer un « Data Lake ».

Premier étage de la fusée Data Centric : repenser l’approche de la donnée

Ce lac de données apporte une nouvelle agilité au système d’information, en fournissant un espace de stockage et d’analyse global de toutes les données, qu’elles soient brutes ou raffinées, issues des sources internes ou en provenance de sources externes.

L’erreur souvent constatée est que l’entreprise conserve sa vision classique de l’intégration des données : la donnée est alors extraite d’une source et recopiée au sein du Data Lake afin de la rendre disponible pour l’analyse. Or avec l’avènement des très gros volumes de données, cette stratégie consistant à ramener l’ensemble des données dans un point unique peut s’avérer contre-productive. Potentiellement coûteuse en temps, en traitement, en stockage, la valeur générée peut s’avérer faible. Il est donc important de cadrer les sources de données à intégrer et de repenser sa stratégie d’intégration inter-applicative. Pour réussir sa stratégie Data Centric, il faut l’associer à une autre notion : l’entreprise étendue.

L’entreprise étendue : redéfinir les frontières du S.I.

Aujourd’hui, les directions informatiques ont « abandonné » certaines données, étant dans l’impossibilité de les le capter et/ou de les intégrer facilement au système d’information. Ces données grises et Dark Data sont par exemple les données digitales générées dans le Cloud et manipulées directement par les directions marketing, ou encore certaines données de production industrielle restant sur site car compliquées à rapatrier au sein du système d’information.

La notion de silos de données est alors ici poussée à son paroxysme ; le silo n’est plus dans le DataWarehouse mais déporté « quelque part » à l’intérieur ou à l’extérieur de l’entreprise, tout en restant visible par le métier.

La notion d’entreprise étendue est née de la constatation que les DSI ne considèrent ou ne valorisent une donnée que si elles savent l’identifier, la gérer et au besoin la stocker. Dans la logique Data Centric, il doit être possible de voir et d’analyser toutes les données de l’entreprise, y compris celles qui ne sont pas à l’intérieur des frontières classiques du système d’information. Or comme recopier toutes les données en provenance de toutes les sources n’a pas de sens, même dans un contexte Big Data, il est nécessaire de privilégier une approche dans laquelle le système d’information sera virtuellement étendu à l’ensemble des sources de l’entreprise.

Mais si toutes les données ne sont pas recopiées localement au sein du Data Lake, alors comment les croiser et les analyser pour en tirer de la valeur ?

Dernier étage de la fusée Data Centric : l’Edge Computing

S’il n’existe pas de traduction littérale à l’Edge Computing, l’idée générale est simple : valoriser la donnée, là où elle se trouve. En fonction de la stratégie Data de l’entreprise, et dans le but d’éviter des déplacements massifs et coûteux de données vers le Data Lake, l’Edge Computing favorise le traitement de l’information au plus proche de la donnée, ramenant uniquement la donnée utile dans le Data Lake, et ce à moindre coût.

Les nouveaux compteurs intelligents Linky en sont un très bon exemple : ils ont la capacité de renvoyer au réseau soit la consommation électrique du client au fil de l’eau, soit le cumul de sa consommation journalière. Et cette information sera stockée (en incluant les pics de consommation) au sein du Data Lake de l’opérateur électrique.

La logique Data Centric (associée aux notions d’entreprise étendue et d’Edge Computing) apporte une souplesse inégalée pour l’entreprise dans la mise en place d’un projet Big Data. De plus, son objectif de valorisation de la donnée évite les écueils liés à des réflexes venant de 20 ans de BI, aide à définir les frontières de la donnée et au final, facilite l’adoption du Big Data en pérennisant et en rationalisant l’usage du Data Lake. Et ce, sans oublier les aspects de bonne gouvernance et de sécurité qui ont évidemment un impact fort dans la mise en place de tels projets.

Partage d’expérience - CCIFI : quand l’IT aide les entreprises à se développer hors de France