Par Edouard Beaucourt, Country Manager France, Snowflake
Nous sommes à un stade crucial de l’évolution de la science des données. Les applications axées sur les données sont le nouveau langage qui unit les organisations, permettant aux data scientists et aux ingénieurs en Machine Learning (ML) de communiquer directement leurs résultats à leurs pairs. Avec l’adoption du cloud, n’importe quelle quantité de données peut être collectée et traitée. Alors, que pouvons-nous apprendre de toutes ces données et comment pouvons-nous en extraire et en créer du sens ?
Jusqu’à présent, l’approche traditionnelle axée sur le SQL a contribué à la prise de décision en appliquant des techniques de visualisation des données à des informations structurées et tabulaires stockées dans des bases de données. Cependant, les modèles Machine Learning prédictifs tels que les réseaux neuronaux et les types de données semi-structurées ou non structurées, comme les images, les vidéos et les données sur les sentiments, ne s’adaptent pas parfaitement à l’ancien paradigme SQL. Les scientifiques des données et les ingénieurs ML ont du mal à partager les connaissances qu’ils acquièrent dans leur travail lorsqu’ils traitent ces nouveaux types de données et les nouvelles façons de traiter ces informations.
Un éventail infini de possibilités s’ouvre pour les applications basées sur les données
Les scientifiques des données et les ingénieurs ML veulent créer et expérimenter des mélanges arbitraires de différentes données. Par exemple, les tweets avec des données de sentiment attachées par l’IA, ou les vidéos avec des annotations faites par des humains qui parlent du punch émotionnel de l’histoire fournissent un moyen supplémentaire de mesurer le ROI du marketing. Cette nouvelle pile de données est alimentée par Python, avec de nouvelles méthodes natives de Python pour aider à traiter, transformer et visualiser les données. Le résultat de cette visualisation est constitué d’applications axées sur les données. Ces applications offrent aux utilisateurs professionnels un ensemble infini et éblouissant de nouvelles capacités, allant de la prévision de la vacance des places de parking à l’évaluation des besoins d’approvisionnement d’un détaillant en passant par l’identification de la disposition optimale des parcs solaires.
Les data scientists et les ingénieurs ML peuvent prendre le centre d’appels d’une entreprise et créer un produit de données visuelles en mélangeant des données audio, des modèles d’apprentissage automatique et des analyses de sentiments. Différents publics peuvent accéder à des versions de cette application axée sur les données, adaptées à leurs besoins spécifiques. Les responsables des centres d’appels et les cadres supérieurs peuvent alors se plonger dans les expériences des centres d’appels des clients à travers le pays, rechercher les différences et prendre des décisions sur la façon d’améliorer le service à la clientèle en fonction de ces données.
Dépasser le goulot d’étranglement actuel des communications
Les goulots d’étranglement dans les communications empêchent un partage rapide et facile des données entre les scientifiques et les utilisateurs. En s’adaptant aux nouvelles demandes de traitement des données et en travaillant dans le monde de Python, les scientifiques des données et les ingénieurs ML ont souvent du mal à partager leurs produits de données en dehors de leurs propres équipes. Ils peuvent passer une grande partie de leur temps à répondre à d’interminables courriels quotidiens sur des éléments uniques des résultats de leur modèle ou rester bloqués et regarder depuis la touche lorsque leur organisation embauche une toute nouvelle équipe pour créer une application de données unique.
L’implication d’autres équipes situées entre ces deux groupes complique encore la situation. Il est impératif que la visualisation des données en langage Python fonctionne comme un langage commun pour la nouvelle pile de données, afin que les scientifiques des données et les ingénieurs ML puissent exprimer leurs idées sur les données dans des applications orientées données destinées aux utilisateurs professionnels. Dans le même temps, les scientifiques des données et les ingénieurs ML doivent être en mesure de créer et d’itérer rapidement sur ces artefacts de données pour suivre l’évolution des données elles-mêmes, qui changent constamment.
Vers un cycle vertueux de collaboration autour de la visualisation des données
Les outils émergents de visualisation des données permettent déjà aux scientifiques des données et aux ingénieurs ML de partager directement des représentations visuelles de leur travail par le biais du code avec d’autres équipes au sein de leur organisation. Cependant, nous n’avons pas encore atteint une véritable communication et collaboration bidirectionnelle par le biais des artefacts de données. Nous devrions assister à l’introduction de technologies permettant la création de boucles vertueuses de collaboration étroite entre le créateur d’un produit de données et le consommateur de cet artefact. Le consommateur sera en mesure de partager ses commentaires sur les visualisations de données fournies par les scientifiques des données et les ingénieurs ML. Ensemble, les équipes seront en mesure de parvenir à une représentation optimale des données, qui sera facilement compréhensible par tous et pourra donc être rapidement exploitée.