Par Aviv Noy, CTO de Rivery
Alors que de nouveaux termes, concepts et mots à la mode apparaissent chaque jour dans notre lexique des données, faut-il encore savoir de quoi on parle. S’il est en effet essentiel de rester à l’affût des tendances du secteur et des concepts novateurs, il est tout aussi important d’être capable d’identifier quand ces nouveaux termes ne décrivent pas nécessairement quelque chose de véritablement nouveau. C’est notamment le cas avec le “Data Mesh”, qui a été salué comme une nouvelle approche, basée sur une architecture moderne et distribuée pour la gestion des données analytiques, mais qui finalement repose sur des concepts bien connus.
Un peu d’histoire…
Le terme a été défini pour la première fois par l’architecte de données Zhamak Dehghani, un consultant de ThoughtWorks. Il définissait le Data Mesh comme un type d’architecture de plateforme de données qui “embrasse l’omniprésence des données dans l’entreprise en s’appuyant sur une conception orientée domaine et libre-service”. Cette approche décentralisée permet aux utilisateurs et aux parties prenantes d’une entreprise d’accéder aux données et de les interroger là où elles se trouvent, sans avoir à les exporter au préalable vers un entrepôt ou un lac de données. L’objectif est d’éviter les goulots d’étranglement d’une équipe de données centralisée qui agit comme le gardien de toutes les informations. Au lieu de cela, la Data Mesh s’attache à servir les données comme un produit, de sorte que la propriété des données et des informations est répartie dans toute l’organisation.
De son côté, Barr Moses, CEO de la plateforme d’observabilité des données Montecarlo, explique dans un article que contrairement aux infrastructures de données monolithiques traditionnelles qui gèrent la consommation, le stockage, la transformation et la sortie des données dans un data lake, le data mesh prend en charge les consommateurs distribués et spécifiques à un domaine et considère les données comme un produit, chaque domaine gérant ses propres pipelines. La data mesh relie ces domaines et les data sources, associées grâce à une couche d’interopérabilité universelle qui applique la même syntaxe et les mêmes normes sur toutes les données.
L’importance de la Data Mesh
Ainsi, le concept de Data Mesh n’est pas nécessairement nouveau. Les grandes entreprises data décentralisent et gèrent depuis longtemps l’accès aux données dans l’ensemble de leur organisation. Cependant, grâce au cloud, des milliers de petites entreprises et de startups peuvent accéder et bénéficier d’outils, de systèmes et de plateformes de données de niveau entreprise et ont rapidement compris qu’une équipe centrale de BI ou de données peut rapidement devenir un goulot d’étranglement si les analystes et les ingénieurs de toute l’entreprise ne peuvent pas accéder aux données dont ils ont besoin, quand ils en ont besoin, immédiatement.
À première vue, le concept de Data Mesh peut être rapidement rapproché de celui de data fabric. L’un comme l’autre, centralisent les données en une seule architecture. La différence réside dans la manière dont les API sont accessibles aux utilisateurs. La data fabric comprend une structure de données s’étendant sur un vaste réseau de plateformes connectant des données et des applications disparates. Cette dernière représente la couche de données disponible dans toute l’entreprise permettant de démocratiser l’accès aux données et aux informations. Concernant la data mesh, elle est axée principalement sur le changement organisationnel où les équipes de données sont propriétaires de la livraison de celles-ci afin de mieux appréhender leurs données. En définitive, Data Mesh n’est pas un produit. Les données sont le produit. La clé de l’opérationnalisation de cette approche passe par une plate-forme qui permet de créer ce maillage de connexion.
L’avantage d’une approche Data Mesh est de permettre aux personnes de l’entreprise d’accéder aux données dont elles ont besoin. Sans une plateforme qui aide à relier tous les points et à gérer l’ensemble de l’opération, l’idée de Data Mesh ne peut pas être exécutée. De la même manière que DevOps a révolutionné la façon dont les équipes gèrent la livraison continue et les cycles de vie de la construction, les solutions DataOps seront au cœur de l’adoption d’une approche Data Mesh ou Data Fabric dans une organisation.