Depuis maintenant plus de 40 ans, les datawarehouses (ou entrepôts de données) sont l’une des composantes primordiales des systèmes de Business Intelligence. Pourtant, leur taux d’échec dans les projets métiers est tel qu’ils ont une mauvaise réputation en entreprise. Jean Atienza, consultant avant-vente chez Qlik France, plaide pour un datawarehouse réinventé.
Alors que les missions quotidiennes des utilisateurs métiers reposent de plus en plus sur les données, les équipes data tributaires d’un datawarehouse ne disposent pas de la réactivité, de l’élasticité et des ressources nécessaires à la réussite de ces projets. Enfin, la lourdeur de ces entrepôts et leur coût de mise en œuvre ne font que renforcer cette image de « bête noire » de l’analytique.
Pour assurer sa pérennité, le datawarehouse doit se réinventer et faciliter le transport des données de leur source jusqu’à la mise à disposition aux utilisateurs finaux ce qui passe par son automatisation. Ainsi les effets pourraient s’en faire ressentir sur l’ensemble de la chaîne analytique.
Rendre le datawarehouse plus agile grâce à l’automatisation
Il est aujourd’hui possible de faire de ces entrepôts de données de véritables atouts pour l’entreprise. Pour se faire, un équilibre est à trouver entre ces 40 années d’expérience de cette base de données en conservant ce qui fonctionne bien (structure interne en étoile) et en travaillant à l’amélioration des points problématiques (coût, manque d’agilité, etc.).
Pour lever ces freins, l’automatisation apparait comme la solution la plus appropriée afin de tirer le meilleur parti de ces entrepôts. Le fait de générer automatiquement la plus grande majorité du code requis va permettre d’éliminer les tâches de développement répétitives et coûteuses sur l’ensemble du cycle de vie du datawarehouse, du design à la gestion du changement. L’équipe data pourra alors se consacrer à des tâches complexes à plus forte valeur ajoutée, liées aux projets métiers.
Une fois implémentée, les bénéfices de cette automatisation sont immédiats : la qualité du code est meilleure, il y a donc moins de risque d’erreur ; les développements sont plus productifs et rapides, tout comme les modifications. Le datawarehouse est ainsi maintenu et exploité à moindre coûts : le retour sur investissement est donc plus rapide ; par ailleurs, la migration vers le cloud est facilitée ce qui est un atout non négligeable.
Toutefois, il ne s’agit pas seulement de générer automatiquement du code pour alléger la charge de développement. Plus précisément, une nouvelle approche globale doit être mise en œuvre, pour implémenter de nouvelles démarches en matière de déplacement des données, grâce à l’approche EL-T, et de modélisation du datawarehouse, désormais réalisée à partir de la structure des données sources. De ce fait, l’ajout d’une nouvelle source de données ou un changement de structure peuvent se faire très facilement et ils peuvent se propager sur l’ensemble de la chaîne analytique jusqu’aux utilisateurs métiers.
Moderniser la chaîne analytique à sa source pour bénéficier de l’intelligence active
Automatiser un datawarehouse n’est pas suffisant pour tirer pleinement parti de l’analytique en entreprise. C’est l’ensemble de la plateforme de donnée, réunissant datawarehouses, datalakes et bases de reporting, qui doit être modernisée pour que les entreprises puissent accélérer la création de valeurs à partir de leurs données. Ce nouvel agencement présente l’avantage pour les entreprises de stocker les données en une seule fois sur une plateforme centrale à partir de laquelle il sera possible de multiplier les usages, que ce soit pour une utilisation par les métiers ou pour des projets de Machine Learning. Il est essentiel que les entreprises cessent de déplacer, de dupliquer et de manipuler les données afin de s’assurer qu’elles disposent d’une seule source de vérité.
Si l’automatisation doit être au cœur du projet de modernisation de la plateforme, celle-ci doit s’appuyer sur des outils et des méthodes permettant d’extraire les données en temps-réel, de mettre en place une méthodologie agile et une collaboration avec les utilisateurs métiers afin d’obtenir une vision holistique des données en entreprise.
L’intelligence active, soit l’optimisation des différentes étapes de la chaîne analytique pour une meilleure prise de décision, doit être au cœur de ce grand chantier. Elle repose sur 3 grands piliers, qui sont l’automatisation, le temps-réel et la collaboration. C’est en bâtissant la plateforme de données sur ces principes que l’entreprise aura toutes les clés en main pour prendre des décisions plus éclairées dès les premières étapes.