Les 20 et 21 mars, le monde du Big Data s’est retrouvé à Paris pour deux jours de conférences, de rencontres. C’est un des sujets chauds du moment. Mais le sujet est finalement délicat à traiter car comment définir le concept de big data ? Cela fait longtemps que les entreprises traitent d’importantes masses de données, plus ou moins hétérogènes, là ce qui change, c’est l’explosion volumétrique des données et le caractère hétérogène de celles-ci : toute origine, tout type. Et la donnée qu’il faut traiter peut être structurée ou non structurée. Certains introduisent du semi-structuré, mais là, la subtilité sémantique paraît limite. Il n’est pas rare que les données dépassent le Po de stockage comme sur Yahoo, Amazon, eBay. Ce sont parfois plusieurs Go de données qui se rajoutent chaque jour. Prenez Facebook : chaque jour, il faut rajouter des vidéos, des liens, des applications, les commentaires, les utilisateurs, les images.
En big data, le stockage est un problème secondaire dirons-nous. La véritable question est : qu’est-ce que je peux en faire ? Comment traiter un volume de données aussi important ? Qu’est-ce je veux en tirer comme valeur ? Car une donnée non exploitée est une donnée inerte qui ne sert finalement pas grand chose. Or, le big data a pour but de fournir des analyses, des statistiques, bref une valeur à la donnée. Par exemple, connaître l’image d’une société sur les réseaux sociaux, c’est faire des traitements de données très lourds en collectant des centaines de Go, mises à jour chaque jour. Il faut pour cela des outils d’analyses, de statistiques, et surtout de compréhension du contenu. Car il faut savoir ce qui se dit dans la donnée. Puis l’exploitation de ces résultats se fait dans la visualisation, ce que l’on appelle la dataviz. Car une analyse big data est inutilisable en soi, il faut être capable de l’afficher de manière compréhensible, d’où le rôle crucial de la 'data visualization'. D’ailleurs, plusieurs interventions ont clairement mis en avant le décisionnel dans le big data et toute la couche Business Intelligence puis la partie visualisation.
Sur la partie technologique, technique, l’accent a été mis sur l’infrastructure et les outils d’infrastructure, peut être un peu trop. D’ailleurs plusieurs standards se concentraient sur le matériel comme SGI, EMC, TeraData et même Oracle via les offres exa. Sur les outils, nous retrouvons Hadoop, le framework phare du big data, puis tout ce qui est NoSQL, parallélisme dans les traitements, le cloud computing particulièrement avec Windows Azure et Amazon Web Services. Jean-Yves Pronier (EMC) a rappelé qu’en France, nous avons un problème de compétences et qu’il est difficile, voire impossible, de trouver des experts big data…
Beaucoup de monde, quelques centaines de personnes ont assisté à cette conférence, preuve que le sujet intéresse. Le profil était plutôt DSI, responsable IT, responsables marketing. Rendez-vous est déjà pris pour avril 2013 !