Exclusif – Olivier Tijou, vice-président régional EMEA francophone et Russie de Denodo, un spécialiste de la data virtualisation, aborde dans cet avis d’expert la question de la gestion de données. Quels sont les moyens d’optimiser la gestion des données d’une entreprise ? L’interopérabilité des plateformes cloud est-il vraiment nécessaire ? La virtualisation des données est-elle une réelle solution pour les entreprises ?
Les données sont le moteur de l’économie numérique, les organisations centrées sur les données bénéficient donc d’un avantage de taille. Pour rester compétitives, les entreprises doivent disposer d’une stratégie de gestion des données leur permettant de les importer, les stocker, les organiser et les analyser efficacement, tout en s’assurant qu’elles soient exactes et accessibles. Avec des technologies émergentes comme le cloud ou le Big Data, et le besoin de données en temps réel, la création d’une stratégie de gestion des données pérenne peut s’avérer être un processus complexe.
Les entreprises sont également affectées par de nouvelles réglementations relatives à la protection et la confidentialité des données, ainsi que l’utilisation des informations personnelles identifiables (PII). Un nombre croissant d’utilisateurs métier et d’organismes réglementaires demandent aujourd’hui une transparence accrue à l’échelle de toute l’organisation délivrant des données. Pour répondre à ces attentes, les entreprises doivent s’assurer que leurs catalogues de données et leurs métadonnées sont à jour.
Quels sont les défis critiques à relever pour mettre en place une stratégie de gestion des données efficace ?
L’accès aux données en temps réel
Pour pouvoir s’adapter rapidement à l’évolution du marché et être en mesure d’effectuer des analyses en temps réel (par exemple, pour analyser les habitudes des consommateurs, optimiser les annonces publicitaires et recommander les produits les plus pertinentes à leurs clients et prospects), les organisations doivent pouvoir s’appuyer sur des données en temps réel. L’approche la plus courante en matière de Business Intelligence (BI) et d’analytique consiste à répliquer les données des systèmes sources vers des solutions de stockage telles que les entrepôts de données et les lacs de données, en utilisant plusieurs processus d’extraction, de transformation et de chargement (ETL). Si cette approche convient aux rapports d’activité réguliers, elle ne prend pas en charge les cas d’usage analytique en temps réel.
La capacité d’exploiter pleinement le Big Data
Afin de réaliser des analyses avancées, les organisations doivent être en mesure de stocker et d’analyser une grande diversité de sources Big Data. Il s’agit notamment de textes (comme les contrats et les messages sur les réseaux sociaux), de messages vocaux (les conversations entre les contrôleurs aériens et les pilotes, par exemple), d’images (telles que les photos des dommages causés par un accident) et de vidéos (comme celles prises par les caméras de sécurité dans les aéroports et les boutiques). Les organisations stockent également des données issues de nouveaux programmes business, des données qui doivent être transmises à des applications de diffusion en temps réel, des données provenant d’appareil mobiles, et des données de télémétrie générées par des appareils connectés. Quelle que soit la nature des analyses, le volume colossal et la diversité impressionnante du Big Data auront un impact direct sur l’architecture de données.
L’interopérabilité des plateformes cloud
La technologie cloud évolue à une vitesse effrénée. Les plateformes d’intégration des données rationalisent la connectivité et transcendent les limites des solutions, faisant des architectures hybrides et multicloud les nouvelles options privilégiées. La nouvelle stratégie d’architecture de données devrait prendre en charge l’interopérabilité des plateformes de cloud computing. Il sera ainsi possible d’effectuer des tâches de reporting et d’analyse qui mobilisent des données stockées sur différentes plateformes cloud.
La data science
La data science permet aux organisations de mettre en lumière les tendances invisibles au sein de leurs données en utilisant des modèles analytiques. Ces modèles reposent sur des techniques telles que les statistiques, le deep learning, le machine learning et l’intelligence artificielle. Cependant, plusieurs études ont démontré que les data scientists passent généralement 80 % de leur temps à préparer les données, et consacrent seulement 20 % à la création de modèles prédictifs. Il est donc impératif qu’une architecture de données moderne contienne les outils permettant aux data scientists de se concentrer sur leur cœur de métier.
La stratégie de gestion des données idéale
Le paysage des technologies analytiques ne cesse d’évoluer. Aujourd’hui, les entreprises ne se limitent plus à la production de simples rapports opérationnels. Nous sommes à l’ère de l’utilisation d’analyses avancées pour résoudre des défis commerciaux complexes. Sur le plan technologique, les organisations ont besoin d’une architecture de données flexible offrant une vue logique et consolidée sur toutes leurs données. Ces architectures sont capables de délivrer aux applications consommatrices, aux utilisateurs métier et aux équipes d’analytique avancée, les données dont ils ont besoin à tout moment, quels que soient leur format et leur emplacement. Les entreprises peuvent également créer une couche sémantique en déployant une plateforme de virtualisation des données, qui formera la base de cette architecture.
La virtualisation des données offre une vue simplifiée et intégrée des données d’entreprise fiables en temps réel, comme l’exige toute application consommatrice, utilisateur métier ou data scientist. La virtualisation permet d’intégrer des données issues de différents emplacements et sources, dans différents formats, sans avoir à répliquer les données dans un référentiel central. Les entreprises bénéficient alors d’une couche d’accessibilité unique et unifiée qui transmet aux applications consommatrices les données dont elles ont besoin. Le résultat : un accès aux données en temps réel, et un coût global réduit.