Intelligence artificielle : Microsoft veut retranscrire l'émotion de la voix sur les visages

De nombreuses applications dans le doublage et l’animation 3D
À lire aussi

En décomposant un enregistrement audio, des chercheurs sont parvenus à animer un visage mais aussi et surtout à appliquer les émotions transcrites depuis l’enregistrement audio. Une trouvaille qui pourrait améliorer les graphismes dans les jeux mais aussi, hélas, produire des vidéos type « deepfake » de plus en plus réalistes.

au sommaire

De nombreuses applications dans le doublage et l’animation 3D
À lire aussi

Une équipe de chercheurs de chez Microsoft vient de publier un article dans lequel ils décrivent un nouveau système mis au point pour animer des visages en se basant uniquement sur un enregistrement audio. Cette nouvelle méthode profite des avancées dans le domaine du deep learning, ou apprentissage profondapprentissage profond, pour créer une vidéo d'un visage qui parle en y traduisant les émotions détectées dans la voix.

L'animation des visages basée sur un enregistrement n'est pas complètement nouvelle, mais les méthodes actuelles partent du principe que l'échantillon sonore est clair, sans bruit de fond et avec un ton neutre. Le nouveau système utilise un auto-encodeur variationnel (VAE) qui apprend à démêler les différents composants de l'enregistrement audio, avec entre autres la partie phonétique, la tonalité émotionnelle, et les bruits de fond. Cela lui permet d'être beaucoup plus robuste et de pouvoir créer des animations à partir d'enregistrements plus naturels.

De nombreuses applications dans le doublage et l’animation 3D

La piste audio est décomposée sous forme de représentations qui peuvent ensuite être utilisées avec différentes méthodes d'animation existantes. Cependant, les chercheurs de chez MicrosoftMicrosoft ont utilisé des réseaux antagonistes génératifs (GAN), deux réseaux neuronaux en compétition, pour créer leurs vidéos. Cela leur permet non seulement d'animer un visage qui « parle », mais également de lui insuffler les émotions transcrites depuis l'enregistrement audio.

Comme toute technologie, celle-ci pourrait être abusée pour créer des deepfakes. Cependant, les auteurs visent avant tout des applicationsapplications plus utiles, comme le doublage d'une vidéo dans une autre langue, des avatars 3D générés en temps réel, ou encore pour améliorer les animations des personnages dans les jeux vidéo.