Alibaba Cloud vient d’annoncer un modèle d’IA générative qui fait parler ou chanter une personne, un personnage animé ou peint à partir d’une photo et d’une bande son.
EMO (Emote portrait alive) est capable de transformer des photos associés à des enregistrements audio, en vidéos ultraréalistes grâce à une technologie de synthèse audio avancée. L’IA arrive à faire mouvoir le visage fixe en respectant la morphologie (la bouche, le nez, les sourcils notamment) et les mots prononcés.
Cette technologie permet de créer des portraits animés sans recourir à des modèles 3D. Exemple d’une animation faciale.
Pour tester EMO, les chercheurs ont créé une base de données audio-visuelle comprenant 250 heures de contenu et 150 millions d’images.