Avec la mobilité, le Cloud et les réseaux sociaux, le Big Data fait partie des tendances fortes du moment. C'est aussi sans doute la plus mal connue de ces tendances, car la moins parlante pour les utilisateurs. Et pourtant, certaines entreprises sont déjà en plein dans le Big Data et de nombreuses autres seraient sans doute bien inspirées de s'y préparer.
Contrairement aux idées reçues, le Big Data n'est pas une préoccupation réservée aux grands comptes et aux projets de recherche scientifique, mais les entreprises sont désormais amenées à gérer des volumes de données de plus en plus importants, qu'il s'agisse d'informations clients, produits, de messages électroniques ou de données non structurées en général, de vidéos ou d'autres informations issues de médias sociaux, d'informations émanant de machines et de capteurs etc… La question ne concerne plus le principe du Big Data pour les entreprises, mais plutôt la façon d'y aller : les technologies spécifiques permettent de proposer des produits plus adaptés, de renforcer les relations clients et de mieux anticiper l'avenir. Mais quelle réalité ce concept aux contours flous recouvre-t-il en entreprise ?
Le phénomène est bien réel : nous allons générer 30 fois plus de données par an d'ici 2020. Cette explosion a démarré voici quelques années, avec la multiplication des sources de données non structurées, issues notamment des réseaux sociaux, mais aussi de nombreuses autres sources. Selon une récente étude menée par le cabinet d'analyse ESG (Enterprise Strategy Group), 50 % des répondants ont fait état d'une croissance annuelle du volume de leurs données de 11 à 30 % et 28 % ont déclaré que ces volumes augmentaient de plus de 30 % par an, avec les implications que cela entraîne en termes d'infrastructure et de stockage notamment.
Mais pour l'heure, la PME française typique ne se sent guère concernée par ce phénomène, qu'elle estime encore réservé aux organisations plus importantes. De fait, une étude menée par l'éditeur Talend montre que 59 % des entreprises n'ont pas mis en place de stratégie de gestion du Big Data. Et 98 % d'entre elles avouent ne pas être en mesure de fournir régulièrement la bonne information au bon moment à leurs utilisateurs. Parmi les entreprises ayant mis en oeuvre des projets de Big Data, 62 % indiquent avoir obtenu des bénéfices, notamment l'optimisation des processus métiers (28 %) et l'amélioration des processus de marketing et de vente (24 %). Cela signifie aussi que 38 % estiment ne tirer aucun bénéfice du Big Data. L'étude de Talend, qui a enregistré 95 réponses, tente une explication : «comme pour tout nouveau concept, l'absence d'expertise interne et/ou de ressources disponibles, de qualité de données et de pilotage de projets de Big Data expliqueraient ce chiffre». Cette analyse est corroborée par les déclarations des répondants, dont 61 % estiment que le principal défi du Big Data est d'allouer suffisamment de ressources au projet et 52 % font état d'un manque d'expertise en la matière.
Les défis du Big Data
Pour Thomas Otter, VP du développement du produit Employee Central chez SuccessFactors et ex-VP de la recherche de Gartner, «il n'y a pas de définition univoque du Big Data. Ce qui le caractérise dans le monde des RH, c'est que les données qui servent de base à ces analyses émanent de l'extérieur du monde des RH, de Facebook ou Linkedin, par exemple». Or, il est difficile de prétendre aujourd'hui ne pas être concerné par le monde extérieur à l'entreprise.
Mais cette vision par le prisme des RH est un peu réductrice : les définitions généralement admises du Big Data font intervenir les notions de variété, de vitesse (ou vélocité) et de volume, souvent associées à celle de valeur des données. L'étude de Talend montre que pour plus de la moitié (51 %) des personnes interrogées, la variété des données, combinant données structurées et non structurées, pose le plus de problèmes et de questions aux entreprises. Avec 31 %, le volume n'arrive qu'en deuxième position, la vitesse étant perçue comme un défi majeur par seulement 29 % des répondants.
Pour Georges Carbonnel, responsable grands comptes chez Jaspersoft France, «le Big Data se définit comme correspondant à tout type de technologie pouvant rendre utile une énorme masse de données». Mais qu'est-ce qu'une «énorme masse de données» ? Pour lui, «elle se mesure plutôt en Po (Petaoctets) qu'en Go ou en To, comme sur les bases de données classiques». Cette vision semble toutefois encore un peu futuriste, car si l'on s'en réfère à l'étude citée plus haut, en augmentant les volumes en To de 30 % par an, on peut encore rester un moment sur des volumes exprimés en To et le Po est encore loin. À la Société Générale, par exemple (cf. encadré), la base de données fait 20 To pour 22 500 utilisateurs potentiels et 1 500 utilisateurs concomitants. Et la Société Générale n'est pas une PME… Le qualificatif «énorme» reste donc tout relatif.
Il n'en demeure pas moins que les volumes augmentent dans des proportions jamais atteintes jusqu'ici et qu'il va falloir les gérer, dans toutes les entreprises : au rythme de 30 % de croissance par an, si l'entreprise gère aujourd'hui 5 To de données, à l'horizon 3 ans, arithmétiquement, ce volume sera double, ce qui constitue déjà un défi en soi. Pour Steve Sarsfield, senior product manager chez Talend, «les défis du Big Data sont en rapport avec la taille de l'entreprise. Une petite entreprise aura une infrastructure et des problèmes de systèmes d'information en rapport avec cette taille, tournant autour de l'ERP et du CRM. Mais lorsque l'entreprise se développe, elle se dote d'autres systèmes, comme la gestion des ressources humaines et le marketing. Là, des données issues de Linkedin, de Facebook et d'autres réseaux sociaux vont entrer en jeu. Si elle est déjà équipée d'un entrepôt de données, celui-ci devra devenir plus rapide, plus puissant et capable de gérer des données en plus grand nombre, le tout dans des délais plus brefs». Le SI se complexifie ; si d'aventure l'entreprise fait l'objet d'une fusion/acquisition, il devient encore plus complexe et faire migrer son architecture traditionnelle vers des architectures spécifiques, de type Hadoop ou autres, devient nécessaire.
S'il est le plus en vue des frameworks, Hadoop n'est cependant pas un «must» : il existe de nombreuses autres solutions, y compris en Open Source (cf. infra). Mais peut-être n'est-il même pas nécessaire d'adopter des outils spécifiques et que vos outils existants suffiront pour un temps encore. Les bonnes questions à se poser pour l'entreprise concernent les objectifs métier à atteindre et les délais. Il ne sert à rien de charger une base de données colossale si l'on est incapable de l'exploiter. Les récents avatars de l'espionnage américain via la NSA en sont la preuve : aussi puissant que soit Prism, il n'a servi à rien pour déjouer l'attentat de Boston. Trop d'information tue l'information.
L'adoption du Big Data
Pour Georges Carbonnel, souvent «les sociétés du e-commerce sont en avance dans le domaine. Il s'agit de sociétés traditionnelles et non de start-up, qui elles ne sont pas encore dans le besoin de Big Data. Les autres entreprises en pointe sont les acteurs des télécommunications, le secteur financier au sens large et certaines sociétés de haute technologie. Orange, par exemple, utilise nos technologies pour récupérer des données non structurées depuis les réseaux sociaux, les analyser et sortir des tendances». Mais il précise estimer que seules 5 à 10 % des entreprises le mettent réellement en œuvre, «ce qui est énorme si on compare la situation actuelle à celle d'il y a 3 ans. La France demeure en retrait par rapport aux autres pays, comme souvent».
Big Data et Open Source
«Le Big Data foisonne dans l'Open Source», explique Georges Carbonnel. «Il est le théâtre d'innovations fortes dans le domaine et bénéficie d'une grande adaptabilité et d'une grande diversité des solutions». Pour notre interlocuteur, la question n'est pas tant celle du volume absolu de données, mais celui des outils que l'on va utiliser : «peut-on rester sur des bases de données classiques ou faut-il être innovant et se doter d'outils capables de traiter non seulement la quantité de données mais aussi d'apporter les performances nécessaires à l'entreprise parce qu'on a atteint les limites des bases de données classiques ?»
D'après l'étude de Talend, Hadoop et les distributions basées sur Hadoop en Open Source représentent plus de 60 % des implémentations de Big Data actuellement en service, ou considérées pour une utilisation future. Mais d'autres solutions Open Source existent, comme InfoBright, Cassandra ou encore MongoDB et d'autres.
Quant à Jaspersoft et aux nombreux autres outils de restitution, ils cherchent en général à rester agnostiques par rapport aux bases de données et proposent des connecteurs aux diverses solutions. La démarche n'est pas spécifique aux outils Open Source et vaut aussi pour les outils commerciaux.
Big Data et au-delà
Chez Microstrategy, qui tenait en début d'été à Barcelone sa conférence annuelle européenne réunissant quelque 1 000 personnes, le Big Data est omniprésent et sous-jacent à toutes ses solutions. Les outils proposés par l'éditeur étant agnostiques par rapport à la base de données, l'éditeur a développé de nombreuses solutions de connexion et de nombreux partenariats. Ils sont conçus pour gérer et s'intégrer à toutes les bases de données, des plus traditionnelles aux plus novatrices, comme Hadoop ou SAP HANA. Mais l'américain va plus loin : pour Michael J. Saylor, CEO, les plateformes qu'il propose tournent désormais toutes autour du Cloud et du Big Data dans quatre catégories. L'analyse des données est l'activité historique et correspond au cœur du Big Data. La mobilité est son dernier cheval de bataille : le CEO vient d'ailleurs de publier un livre, «The Mobile Wave», sur le sujet, sous-titré «comment l'intelligence mobile va tout changer». L'éditeur a déjà mis en pratique cette vision et mise à fond sur le développement d'applications mobiles. Mais déjà, d'autres tendances, comme la gestion des identités et la fidélisation pointent à l'horizon, avec les produits correspondants, Usher et Wisdom, respectivement. Là encore, il s'agit de compulser des quantités importantes de données. Selon le point de vue duquel on se place, la vision du Big Data n'est pas la même : ce qui est sûr en revanche, c'est qu'il devient de plus en plus une réalité.
Ericsson fait ses analyses Big Data avec MongoDB
MongoDB est une base de données de gestion de documents Open Source de type NoSQL écrite en C++. Ericsson, acteur bien connu du secteur des télécommunications, a répondu aux besoins de télévision multi-écrans des différents opérateurs grâce à une solution baptisée Multiscreen TV. Celle-ci permet aux fournisseurs de services télévisuels de contrôler et de gérer la fourniture des contenus de manière centralisée, vers quasiment tous les types de périphériques grand public. L'entreprise a remplacé sa base de données relationnelle existante par MongoDB, ce qui lui a permis de réduire les délais de réponse, les temps de latence et les indisponibilités lors des mises à jour.
Lorsqu'Ericsson a développé la toute dernière version de Multiscreen TV, la société avait besoin d'un moteur décisionnel puissant, capable d'interroger de grands volumes de données dans MongoDB. «Nous recherchions un produit permettant une intégration directe avec MongoDB», explique Jon Anderson, responsable de la stratégie produits Multiscreen TV. «Nous souhaitions pouvoir produire de beaux rapports tout en disposant de capacités d'exportation conséquentes».
Ericsson utilisait JReport, qui ne permettait pas l'intégration avec MongoDB ni ne produisait les types de formats attendus par les fournisseurs de services télévisuels (CSV). La société a retenu JasperReports Server de Jaspersoft, une solution qui, outre la compatibilité avec MongoDB, lui permet une intégration directe, sans environnement ETL (Extract, Transform, Load), ce qui accélère et facilite l'obtention des données.
Grâce à cette solution, Ericsson offre aux fournisseurs de services télévisuels un reporting, des analyses et une exploration des données MongoDB souples et interactifs, à concurrence de deux To de données de session TV.
Côté utilisateurs internes, le reporting est puissant et direct sur les données MongoDB, car Ericsson peut s'affranchir aussi des bases de données multiples : «il est plus simple et moins risqué d'utiliser une seule base de données», commente Thomas Beckum, responsable de l'ingénierie logicielle chez Ericsson.
La vitesse du in-memory sans les coûts : une histoire à peine croyable
La plateforme analytique Big Data ParAccel, récemment acquise par la société Actian, se targue d'être capable d'exécuter une requête nécessitant 46 heures sur une plateforme classique en seulement 30 secondes et d'être de ce fait la base de données analytique la plus performante au monde.
Pour pouvoir afficher de telles performances, les ingénieurs de l'entreprise ont investi des années de travail, créant des algorithmes, optimisant chaque étape d'une requête, à commencer par la structure de la base de données. La technologie mise en œuvre dans le moteur d'analyse s'appuie sur certaines propriétés des données, comme leur distribution et leur tri, mais aussi sur une optimisation des entrées/sorties via des algorithmes permettant de prévoir et d'exploiter des schémas d'accès. La société a également créé son propre protocole d'interconnexion des échantillons de données et tire parti de l'accroissement généralisé des tailles de mémoire vive pour allouer des espaces mémoire plus importants à chaque échantillon.
John Santaferraro, vice-président marketing des solutions et produits chez ParAccel, raconte : «chez OfficeMax, on utilisait une base de données Oracle pour réaliser de complexes analyses de marché. Les requêtes qu'ils lançaient sur une base de données de 10 To nécessitaient 46 heures, après optimisation par des consultants experts. Ils ont placé ces données dans une base de données ParAccel, où la même requête s'est exécutée en seulement 30 secondes, sans aucune préparation supplémentaire des données ni modification du SQL».
La réaction d'OfficeMax a été similaire à celle du commun des mortels : ils n'ont pas cru la chose possible. «Soit vous n'avez pas exécuté l'intégralité de l'algorithme, soit vous avez ignoré une partie des données», cite John
Santaferraro. «Ils ont alors passé des jours entiers à comparer les résultats des deux requêtes et sont arrivés à la conclusion que la requête ParAccel avait effectivement fonctionné».
«Il fallait déjà 2 heures uniquement pour charger les données avec la base de données Oracle puis 3 autres heures pour construire les index. Ensuite arrive la phase de tests et d'optimisation. Tout cela s'ajoute encore aux 46 heures mentionnées plus haut pour arriver à un total de 58 heures», explique John Santaferraro. «ParAccel étant une base de données en colonnes utilisant des traitements massivement parallèles, le chargement des données ne prend que quelques secondes, puisqu'il n'y a pas besoin de réaliser une modélisation physique : il n'y a pas de création d'index ni de matérialisation de vues. Le chargement se fait au débit de 160 To par heure. Dans le cas particulier, le chargement s'est fait en 45 secondes contre 2 heures pour la base de données Oracle». En outre, la taille de la base de données une fois compressée grâce aux algorithmes de ParAccel a permis de passer de 10 To à 800 Mo.
John Santaferraro mentionne également une autre requête, concernant les 1 000 magasins de l'enseigne, qui nécessitait 7 heures et pour laquelle la version ParAccel ne demandait qu'une minute et 15 secondes. Les conséquences de telles améliorations de performances sur les équipes d'analystes dédiées à la BI ont été de leur permettre de se consacrer à des projets plus stratégiques et de ne plus passer 80 à 90 % de leur temps à attendre la fin de l'exécution des requêtes à collecter les données. Concrètement, sur les six personnes à temps complet dédiées, cinq et demie ont été libérées et placées sur des tâches plus valorisantes.
ParAccel a été évalué par le Gartner et figure dans son quadrant magique de 2013 tout en haut du carré inférieur droit, c'est-à-dire celui des visionnaires.
La Société Générale consolide ses nombreux entrepôts de données
Le groupe bancaire international bien connu, réunissant, outre la Société Générale, le Crédit du Nord et Boursorama et comptant quelque 150 000 collaborateurs à travers près de 150 pays, a initié en 2009 un programme de consolidation de ses divers entrepôts de données concernant les domaines du marketing, du commerce, de la finance et de la gestion du risque.
La banque a choisi de faire confiance à un éditeur unique pour ses outils de BI, Microstrategy, en l'occurrence.
«Depuis 5 ans que nous avons fait ce choix, nous ne le regrettons pas, bien au contraire. Notre collaboration avec l'éditeur est étroite et constructive», commente Dominique Suardet, responsable du projet. La banque utilise peu ou prou toute la panoplie d'outils proposés, toujours dans leur version standard, car elle s'interdit toute personnalisation. L'objectif du projet à terme est de n'avoir plus qu'un seul entrepôt de données pour l'ensemble de la société : pour cela tout nouveau projet implique de dé-commissionner un ancien projet.
Le projet «Diapason»
Le volume global des données est de 20 To, ce qui peut sembler relativement faible pour une telle entreprise. Mais 22 500 utilisateurs potentiels et 1 500 utilisateurs concurrents exploitent cette base de données, au travers de 3 600 rapports. Baptisé Diapason, du nom de sa phase initiale, le projet s'appuie sur des serveurs AIX en clusters équipés de DB2 et d'une base de données Oracle pour les métadonnées, sur DataStage pour la collecte des données, ainsi que sur un serveur Apache en frontal. Une équipe de 25 personnes lui est dédiée.
Des outils très pointus
Les utilisateurs passent par un portail unique pour l'ensemble du reporting, mais certaines requêtes sont trop importantes pour pouvoir être lancées en cours de journée : c'est pourquoi la Société Générale a mis en place un service de rafraîchissement en mode batch. Un effort tout particulier a été fait sur la métrologie et les statistiques : les outils permettent de connaître de nombreux paramètres, comme le nombre des utilisateurs connectés ou celui des requêtes qu'ils ont lancées, mais aussi de surveiller les paramètres système. «Ces métriques permettent une allocation fine des ressources aux différents projets et une refacturation au plus juste aux utilisateurs», précise Dominique Suardet.
Les projets ne manquent pas pour l'avenir, à la Société Générale : «nous évaluons actuellement la possibilité d'exporter des cubes d'un cluster à l'autre plutôt que d'avoir à les reconstruire chaque jour», explique Dominique Suardet. «Par ailleurs, c'est un vrai pensum que de travailler sous Windows et nous envisageons de passer sous Linux». Une migration sur Teradata a également été initiée et devrait s'achever dans les deux ans. D'autres axes d'évolution, comme le passage dans le Cloud, la virtualisation des serveurs et les traitements in-memory sont également à l'étude.