Par Si Luo, Chef du Traitement Numérique du Langage (NLP), Alibaba DAMO Academy.
Plus grand, plus rapide, plus intelligent… Il est dans la nature humaine de vouloir être le meilleur et le but de la compétition est de prouver qui – ou quoi – est au dessus du lot dans un défi ou une activité donnés. Depuis quelque temps, cet esprit de compétition s’est développé dans de nombreux défis entre humains et machines. Outre leur valeur de divertissement et de curiosité, l’un des avantages de ces défis est qu’ils permettent de mesurer l’évolution des nouvelles technologies, en les faisant passer à un niveau de maturité pour être utilisées dans des applications courantes afin de rendre la vie plus facile pour les utilisateurs finaux.
À titre d’exemple, beaucoup d’entre nous utilisent à présent la voix comme interface principale avec les assistants personnels intégrés aux appareils du quotidien, qu’il s’agisse des téléphones portables, des systèmes d’info-divertissement, des voitures ou des haut-parleurs intelligents domestiques. Si les technologies vocales ne datent pas d’hier, c’est en 2011 qu’elles se sont révélées au grand public lorsque Watson d’IBM est apparu dans le jeu télévisé Jeopardy ! Ce fut une démonstration publique des progrès réalisés dans le traitement du langage naturel, qui permet de “parler” et de “commander” facilement les appareils et des services vocaux du quotidien.
L’un des exemples récents les plus passionnants du progrès technologique est le challenge organisé chaque année depuis 2015 par la conférence visuelle de référence mondiale CVPR. Elle attire des acteurs mondiaux du secteur des nouvelles technologies tels que Facebook, Microsoft et des universités de renom comme l’Université de Stanford. L’évaluation présente une image et une question connexe en langage naturel, à laquelle les participants sont invités à fournir une réponse précise en langage naturel. Cette année, le défi contenait plus de 250 000 images et 1,1 million de questions.
Alibaba DAMO Academy a obtenu la première place du dernier classement mondial VQA (Visual Question Answering), en dépassant les performances d’un humain dans le même contexte. C’est la première fois qu’une machine surpasse les humains dans la compréhension des images pour répondre à des questions textuelles, l’algorithme enregistrant un taux de précision de 81,26 % pour répondre aux questions liées aux images, à comparer à la performance de l’humain de 80,83 % (dans une partie standard de test).
La percée de l’intelligence artificielle dans la réponse aux questions liées à l’image a été rendue possible grâce à la conception d’algorithmes innovants en s’appuyant sur des technologies exclusives, notamment diverses représentations visuelles, des modèles linguistiques multimodaux pré-entraînés, une fusion sémantique intermodale adaptative et sa technologie d’alignement. L’équipe d’Alibaba a pu réaliser des progrès considérables non seulement dans l’analyse des images et la compréhension de l’intention des questions, mais aussi dans la réponse à ces dernières par le biais d’un raisonnement approprié, tout en l’exprimant dans un style conversationnel proche de celui de l’homme.
La technologie VQA a déjà été largement appliquée dans l’écosystème de diverses entreprises tel que Alibaba. Par exemple, elle a été intégrée dans un chatbot intelligent utilisé par des dizaines de milliers de commerçants sur les plateformes de vente au détail. Cette nouvelle étape importante dans le domaine de l’intelligence artificielle souligne les efforts continus déployés pour stimuler la recherche et le développement dans les domaines liés à l’IA. Elle nous donne également l’occasion de célébrer les avantages que l’IA avancée apporte aux humains lorsque les machines sont “intelligentes”, elles peuvent être utilisées pour nous aider dans notre travail et notre vie quotidienne, permettant ainsi aux gens de se concentrer sur les tâches créatives qu’ils maîtrisent le mieux, tandis que les machines se concentrent sur les tâches moins intéressantes et plus répétitives.
À ce titre, VQA peut être utilisé dans un large éventail de domaines, comme la recherche de produits sur les sites de commerce électronique, l’analyse d’images médicales pour le diagnostic initial d’une maladie, ainsi que pour la conduite “intelligente”. L’assistant d’IA automatique peut offrir une analyse de base des photos prises par la caméra du véhicule. Dans tous ces cas de figure, VQA s’efforce d’améliorer la vie des gens sur le plan personnel et professionnel.
Ce désir d’évolution ne nous quittera jamais. Mais en attendant, nous devrions tous réfléchir aux progrès technologiques qui ont été réalisés et qui facilitent notre vie quotidienne. Une grande partie de ces progrès a été forgée dans l’esprit de compétition entre l’homme et la machine.