Deux maîtres-mots des TechDays 2013, l'événement organisé par Microsoft, à Paris en février : Big Data et Machine Learning. Savoir extraire de l'information de bases de données massives, pour aboutir à une exploitation métier après une phase d'apprentissage purement logicielle
On peut considérer que le Big Data et le Machine Learning représentent la prochaine révolution informatique pour les départements métier de l'entreprise» explique Bernard Ourghanlian. «Le Big Data est composé de trois grandes caractéristiques représentées par les 3 V : Volume, Vélocité (capacité à obtenir des informations significatives rapidement) et Variété (données structurées, semi-structurées et non structurées).
Le Machine Learning consiste, quant à lui, à apprendre en tirant des prévisions de fonctionnement ou de comportement à partir de masses de données gigantesques. Un phénomène d'apprentissage qui permettra la mise en place de programmes informatiques qui n'auraient jamais pu être écrits en passant par de l'algorithmie classique. On écrit des programmes à partir de ce que l'on a retiré de l'observation des données et qui permettent de faire la même chose. Un exemple simple de machine learning : l'utilisation de filtre anti-spam.» Le Machine Learning n'est pas un concept nouveau car cela fait 15 ans que des recherches existent sur le sujet mais avec l'avènement du Big Data et grâce à de récents progrès en mathématiques fondamentales comme en informatique distribuée (arrivée de plateformes open source d'algorithmes distribués comme Hadoop qui permettent une exploitation à grande échelle sur des milliers de noeuds), il est sur la voie de devenir indispensable au business.
Par exemple, l'interface de jeu Kinect de Microsoft a été conçue après l'enregistrement de milliards de données de positions du corps (chez les particuliers en observation, à partir de la base des studios d'Hollywood ) ce qui a permis de modéliser correctement un être humain en mouvement en 32 segments. Puis ce modèle a été utilisé pour déterminer la probabilité que le corps du joueur fasse tel ou tel geste (à partir de capteurs, on reçoit des pixels et l'on en déduit leurs rattachements à l'un des 32 segments afin de reconstituer la position probable du corps).
Tout le Machine Learning est basé sur des calculs de probabilité établis sur un grand nombre de données. On utilise pour ce faire des algorithmes de tous types, par exemple ceux de clusterisation dans le cadre d'un projet de «recommandation de films» pour créer des classes d'utilisateurs à partir de leurs notes mises sur internet. Les films notés sont rattachés à des classes et lorsqu'une personne demande conseil sur Internet, elle est rapidement orientée vers une classe donnée en fonction de son profil pour obtenir une liste de films correspondant à ses goûts.