Comprendre l’importance de la donnée à l’heure du Big Data, c’est bien. Connaître sa valeur stratégique et disposer des meilleurs outils pour la centraliser et la structurer, c’est encore mieux. A cette fin, il faut savoir allier la gouvernance de la donnée et sa centralisation dans un data lake. Par Jean-Luc Josse, Consulting Services Manager AI, data et immersive technology chez Insight.
La donnée, pierre angulaire de la stratégie globale de l’entreprise
Tout le monde a désormais bien conscience que la donnée est centrale dans tout type d’organisation. Cette compréhension est primordiale ; il y a toutefois une différence entre comprendre que la donnée est centrale et centraliser la donnée.
Ainsi, petites et grandes entreprises font face à un flux de données, dans un contexte où tout est digitalisé et numérisé. Ces données, internes ou externes à l’organisation, doivent pouvoir être analysées : il est nécessaire d’en connaître la provenance et de savoir ce qu’on peut en tirer. Il faut, en somme, en déterminer la valeur. Oui, mais avant de déterminer comment, encore faut-il savoir pourquoi ?
Car il faut comprendre, derrière la masse de données disponibles, en quoi elles doivent être au centre de la réflexion. Elles sont en effet la pierre angulaire de la stratégie globale de l’entreprise et de sa capacité de prise de décision.
Avant de penser monétisation de la donnée, une première étape consiste à voir ce qu’il est possible de faire ou non. Dès lors, il sera le moment de penser à la manière optimale de la centraliser et de la structurer, dans une logique “time to market”.
La gouvernance, incontournable dans une logique “time to market”
Le “time to market” devient en effet une véritable obsession à l’heure de la disruption et de l’ubérisation généralisées : la crainte de ne pas être dans les temps pour lancer son offre angoisse les entreprises de toutes tailles et de tous secteurs. Pour aller le plus vite possible sans se laisser dépasser par les concurrents, il est donc nécessaire de faire bon usage des données dont on dispose.
Éditeurs, IaaS et PaaS (« Infrastructure as a Service » et « Platform as a Service » hébergés dans le cloud), développement personnalisé… De nombreux outils de centralisation accompagnent les entreprises dans leur démarche.
Les organisations doivent commencer par comprendre l’ensemble des données qu’elles manipulent, quelle qu’en soit la provenance. Sur la base de ces outils spécifiques, il s’agira ensuite de fusionner les données entre elles pour aboutir à la création d’une donnée supplémentaire, croisée et enrichie, qui permettra ainsi de mettre fin aux décalages de timing entre l’interne et l’externe, et le BtoB et le BtoC, et in fine de créer de nouvelles opportunités tout en optimisant les coûts.
La gouvernance de la donnée demeure donc un point négligé par les entreprises, alors qu’elles ont tout intérêt à comprendre l’origine, l’appartenance et la valeur de la data pour en permettre la priorisation. Et ce, selon une série d’étapes nécessaires et incontournables autour des actions suivantes. Tout d’abord, elles devront identifier toutes les sources de données (CRM, ERP, site…) et les lieux de stockage existants (SQL Server, Oracle, cloud, etc.). Puis, il leur faudra définir qui dans l’organisation utilise ces sources de données, pourquoi avant de déterminer l’objectif de cette utilisation. Les entreprises prendront également soin d’analyser les possibilités d’extraction des données (API, Bulk, ETL, etc.), de définir les formats de sortie (fichier plat, CSV, Json…), de créer leur datalake, et avant, d’enfin, y injecter les données structurées et non structurées.
Voici, en résumé, la base simplifiée et vulgarisée de cette indispensable démarche. Il s’agira ensuite de déterminer et de classer la provenance de chaque donnée (valeur, poids, propriété…), de créer éventuellement, selon les objectifs définis, une librairie de métadonnées uniques, puis, toujours selon les objectifs, de standardiser un schéma de structure de données en fonction de son type (texte, image, son, vidéo, etc.).
Data lake : la centralisation au service de processus internes optimisés
Pour centraliser la donnée, le data lake (ou lac de données) est l’atout numéro un qui permettra d’optimiser les processus internes d’une organisation dans un contexte d’analytique simple (dataviz, tableau dynamique, outils de reporting, etc.).
Ce concept qui a émergé avec le Big Data désigne l’espace de stockage global des informations présente dans une entreprise. Il autorise une flexibilité particulièrement intéressante, puisque des données brutes comme enrichies peuvent interagir sans schéma strict imposé aux flux entrants, ce qui permet la rencontre de données quelle que soit leur nature et leur origine.
Avec les data lakes, il est donc possible d’assurer une gouvernance optimale de la donnée, et ainsi d’accélérer les processus d’innovation. En effet, la centralisation de la donnée permet de distribuer de la valeur aux différents métiers (API), d’accélérer la prise de décision time to market (BI, Dataviz) et ainsi d’augmenter son volume d’affaires (analytics, AI). A noter que pour aller vers de l’analytique plus poussée, il faudra en revanche davantage de maturité sur la structure des données afin d’exploiter au maximum leur potentiel, ce qui vaut également en matière d’intelligence artificielle.
Et, bien sûr, il ne s’agit pas de miser uniquement sur la data pour prendre une décision : l’empathie et le ressenti humains restent primordiaux. Même si les dirigeants peuvent disposer de données fiables et pertinentes pour assurer la pertinence et la pérennité de leur organisation, pourquoi s’en priver ?