Réinventer l’accès aux données : comment l’architecture Data Mesh change la donne

28 mars 2024

Par Martial Coiffe, directeur régional de Starburst pour l’Europe du Sud

Aujourd’hui, Gartner estime que la mauvaise qualité des données coûte en moyenne 12,9 millions de dollars aux entreprises chaque année. Et ce phénomène n’est pas prêt de s’atténuer face à une transformation numérique qui s’accélère et se complexifie. Les entreprises doivent tout de même adopter une stratégie data-driven pour rester pertinentes et compétitives, mais elles sont actuellement confrontées à des enjeux toujours plus importants pour bien gérer leurs données.

Ces enjeux sont multiples et souvent difficiles à appréhender. Je pense ici à la croissance exponentielle des volumes de données combinée à l’énergie et à la vitesse nécessaires pour les traiter, les comprendre et les analyser. Cela complique l’harmonisation des données entre les différents systèmes métiers de l’entreprise. Les experts métiers doivent également maintenir la qualité des données pour qu’elles ne soient pas redondantes, obsolètes ou isolées inutilement dans des silos.

Face à ces défis, un modèle d’architecture décentralisée tel que le Data Mesh est une solution data-driven qui permet d’augmenter l’efficacité opérationnelle. En effet, il facilite la génération plus rapide des informations pertinentes pour l’entreprise, tout en restant accessible à l’ensemble de l’organisation. Le modèle Data Mesh correspond avant tout à un changement de responsabilité dans l’approvisionnement des données. Plutôt que de réunir toutes les données au sein d’un espace de stockage central géré par une seule équipe, celles-ci sont attribuées à différents segments métiers. Ces derniers gèrent ainsi la migration, la transformation et l’analyse d’ensembles de données spécifiques, comme ils le feraient par le biais d’API. L’objectif est d’allier le meilleur des deux mondes : renforcer l’autonomie que les experts métiers ont sur les données tout en conservant une plateforme en self-service.

En déplaçant l’expertise vers les départements métiers, les équipes peuvent concevoir les types et les formats de données adaptés aux différents contextes et cas d’utilisation. Cela réduit également les délais de réponse aux demandes et facilite la prise de décision des consommateurs de données. Par ailleurs, lorsque les domaines de l’organisation effectuent des exercices de planification autour de nouveaux produits ou fonctionnalités, les experts métier peuvent déterminer la manière la plus adaptée de représenter les données en tenant compte de ces changements. Ainsi, même si l’approche Data Mesh attribue des responsabilités supplémentaires aux domaines, elle leur confère l’autonomie nécessaire pour représenter et partager leurs données de la manière qu’ils jugent la plus appropriée, fiable et utile.

Cette approche décentralisée permet aux utilisateurs et aux parties prenantes d’une entreprise d’accéder aux données et de les interroger là où elles se trouvent, sans avoir à les exporter au préalable vers un data warehouse. L’objectif de ce fonctionnement est d’éliminer les goulots d’étranglement, fréquents dans ces modèles traditionnels où une équipe IT centralisée joue le rôle d’intermédiaire dans les projets analytiques.

L’architecture Data Mesh considère ainsi les données en tant que produit, pour faire en sorte que leur exploitation soit optimale. Il existe des caractéristiques essentielles que tout data product doit présenter : ils doivent pouvoir être découverts, compris, adressés, sécurisés, dignes de confiance, accessibles de manière native et dotés d’une valeur intrinsèque. Ce principe de “Data as a Product” crée une nouvelle vision des organisations dans laquelle on peut se fier aux données, les exploiter et les transmettre plus facilement en mettant l’accent sur l’expérience utilisateur. La propriété des données et des informations est ainsi répartie dans toute l’organisation afin de mettre en place une plateforme de données en self-service collaborative. Cette disposition permet aux équipes de données non techniques de prendre plus facilement part à la création et à la gestion des pipelines nécessaires à la production et la maintenance des data products.

Afin de garantir le bon fonctionnement de cette répartition métier, le Data Mesh repose sur le principe de gouvernance distribuée et fédérée des données, qui agit comme le ciment assurant la cohérence et la fluidité entre les domaines. Cela signifie qu’en plus de suivre les règles fonctionnelles de base du Data Mesh, chaque domaine doit déterminer des politiques d’accessibilité et de sécurité qui lui sont propres et qu’il est responsable d’appliquer et de faire respecter. En effet, il n’existe pas un Data Mesh unique mais plutôt une architecture personnalisable et adaptable en fonction des besoins de l’organisation.

À mon sens, le Data Mesh est l’architecture data de demain. Ce modèle combine une agilité renforcée à une évolutivité organisationnelle performante, qui libère les data engineers de l’obligation de trier toutes les informations disparates déversées dans un data warehouse ou une source de “vérité” unique (single source of truth). En plus de ce point essentiel, j’ajouterai que le Data Mesh permet une définition claire de la propriété des données grâce à sa conception orientée “domaine”, ce qui se traduit par des data products de meilleure qualité et créés plus rapidement qu’auparavant. Il permet également de lutter contre les niveaux croissants des volumes de données, en limitant leur développement et en y accélérant l’accès. En plus de contrôler les coûts, cela limite l’impact environnemental des données. Le Data Mesh apparaît donc comme un modèle incontournable pour répondre aux besoins et défis actuels de la gestion des données.

Les environnements hybrides multicloud ont le vent en poupe d’après le nouveau rapport de Nutanix