Accueil Témoignages Coface mise sur un Data Lake virtuel pour devenir davantage Data Centric

Coface mise sur un Data Lake virtuel pour devenir davantage Data Centric

Spécialiste de l’assurance-crédit, Coface a lancé ces dernières années une transformation qui donne une place encore plus importante à la donnée au sein de ses opérations. Mais plutôt que structurer son activité sur un Data Lake classique, le français a misé sur la solution de Data Virtualization de Denodo.

Troisième assureur-crédit mondial, Coface compte environ 4 500 collaborateurs et opère dans plus de 100 pays pour accompagner plus de 100 000 entreprises. Son cœur d’activité est l’assurance-crédit. Dans le cadre de cette activité, Coface est amené à prendre plus de 10 000 décisions de crédit par jour. L’entreprise se développe également dans le domaine de l’information d’entreprise. Coface gère une dizaine de référentiels de données.

Olivier Levillain, responsable de l’architecture chez Coface

Olivier Levillain, responsable de l’architecture chez Coface, résume les enjeux : « Depuis quelques années, Coface s’est engagé dans une démarche afin de devenir encore davantage “Data Centric”. Cette démarche repose nécessairement sur 4 grands principes : une gouvernance forte de la Data, la prise en compte de l’ensemble des contraintes réglementaires, des enjeux d’efficacité opérationnelle, ainsi que de l’innovation pour valoriser au mieux les données. Déployer un Data Lake virtuel nous aide pour déployer cette feuille de route. »

Le Data Lake virtuel, une alternative pertinente au Data Lake physique

Samia Boujatioui, responsable Data Processing chez Coface

Plutôt que de mettre en place une approche classique basée sur un Data Lake centralisateur et articuler les cas d’usage autour de ce référentiel de données unique, la DSI de Coface a fait le choix de se doter d’une solution innovante pour tenir ses objectifs ambitieux : la mise en place d’un Data Lake virtuel.
Samia Boujatioui, responsable Data Processing chez Coface, détaille les atouts de cette approche : « Un Data Lake virtuel est un Data Lake logique qui peut regrouper divers systèmes de livraison de données. La solution que nous avons choisie avec Denodo nous a apporté un Data Lake virtuel polyvalent : il peut servir de base de données aux utilisateurs en consommant directement des Data Warehouse physiques, mais également des Data Warehouse virtuels. »

Cette approche permet d’éviter certains surcoûts liés au stockage et à l’exploitation du Data Lake physique, d’éviter les duplications de données, ce qui facilite la gouvernance tout en cassant les silos de données : le Data Lake virtuel est devenu le point d’accès unique et une couche sémantique unifiée pour toutes les données Coface.

Les chiffres avancés par Samia Boujatioui témoignent des avantages de l’approche. Le coût d’intégration d’une source de données est réduit de 65 % par rapport à un ETL et une forte accélération dans le développement des analyses de données a été constatée, avec 67 % de temps passé en moins en phase de préparation des données.

Le premier Data Warehouse virtuel créé par l’équipe Data a regroupé les données commerciales. « Nous avons désormais un système universel de livraison qui facilite la gestion des données pour l’ensemble de l’organisation. Les spécifications des métadonnées pour l’accès, la transformation, l’intégration et le nettoyage des données, tous les mécanismes de transformation sont définis une seule fois, puis réutilisés à de multiples reprises. Grâce aux couches techniques, les solutions analytiques développées par un Solution Analyst ou un Business Analyst peuvent aussi être facilement réutilisables. »

Des sources de données SaaS, mais aussi Legacy

Le Virtual Data Lake de Coface est de type hybride : il comporte des Data Warehouse virtuels, mais aussi les Data Warehouse physiques que l’entreprise exploitait déjà et qui ont été maintenus en place. « Nous avons des fournisseurs de données Cloud, nous utilisons Azure Dynamics pour notre CRM, SAP Successfactors pour la gestion des employés et Ardoq en tant que référentiel de notre architecture d’entreprise » précise Olivier Levillain. « Nous disposons d’API pour ces applications et, au travers de Denodo, nous mettons à disposition des vues qui exposent ces données. Ainsi, le data Warehouse commercial pioche ses données dans notre base de données Contrats, dans notre base de données Clients, et fournit des vues en direct sur la base de données. »

Les consommateurs des données du Data Lake virtuel peuvent être des applications SaaS via leurs API, à l’image des données de contrats réinjectées dans notre CRM en mode SaaS, des applications internes qui peuvent aussi récupérer des données, ainsi que les solutions de Self-BI. « Le Data Catalog permet d’accéder de manière transparente à toutes les vues de manière simple et visualiser le Data Lineage de chaque donnée disponible » ajoute l’expert.

Le Data Lake Virtuel a été déployé sur 2 serveurs double cœurs actifs localisés dans deux datacenters géographiquement distants. Un load balancer F5 répartit les appels vers les 2 installations. « Nous utilisons le cache Oracle Cache Database, car Oracle est notre base de prédilection. En entrée de Denodo, nous avons essentiellement des bases Oracle, MariaDB, ainsi que SQL Server, MongoDB, et même des listes SharePoint. »

Les déploiements de cas d’usage se sont succédés, avec aujourd’hui une vingtaine de cas d’usage en production. « Le premier fut le Virtual Commercial hub, une vue 360° de nos clients en Allemagne. Ce cas est entré en production 6 mois après l’installation, souligne Samia Boujatioui. Ce produit alimente SharePoint sans soucis particulier à l’intégration. » En parallèle à ces cas d’usage, les utilisateurs peuvent s’appuyer sur Microsoft Power BI pour naviguer dans les données mises à leur disposition.

 

Valoriser les données en désilotant

Olivier Levillain, responsable de l’architecture chez Coface : « En 2018, nous sommes partis d’un cas très classique de reporting sur des Data Warehouse physiques alimentés par les applications pour aller vers ce Data Lake virtuel. Le Data Catalog Denodo permet de gérer les métadonnées décrivant nos données tandis que Collibra gère le dictionnaire des données. Collibra est lui-même connecté à Denodo pour récupérer le catalogue de données et le Data Lineage qui y est géré.

A partir de cette plateforme, nous pouvons alimenter le Data Lab qui peut accéder aux données, alimenter nos reporting Power BI, fournir des API REST pour nos applications Web et mobiles, ou les API exposées à nos clients. Cette Data Fabric alimente les contrôles de conformité, et permet de valoriser notre donnée en désilotant et en donnant accès à des données qui étaient jusqu’ici enfouies dans notre système d’information. »

 

Samia Boujatioui, responsable du Data Processing chez Coface : « Avec cette approche de Data Lake virtuel, nous avons pu briser les silos et faciliter l’accès aux données. La solution nous permet de travailler de manière très collaborative et flexible : le logiciel est assez intuitif, nécessite peu de formation préalable.
Attention, il ne faut pas considérer l’outil de virtualisation de données comme un ETL. Dans certains cas d’usage, nous avons dû utiliser un cache, mais cela ne doit pas être pérenne et systématique. Il faut bien respecter les prérequis de l’architecture de la solution et chaque projet doit suivre un cahier des charges précis pour savoir si un projet est virtualisable dans sa totalité, en partie seulement, ou pas du tout. En outre, il faut bien organiser l’espace de travail collaboratif, privilégier la réutilisation et bien connaître la couche Common Data avant de proposer une solution finalisée. »

 

 

Alain Clapaud