De plus en plus répandue, la conversation vidéo souffre d’un défaut. La position des caméras sur les écrans des ordinateurs et des terminaux mobiles fait que les interlocuteurs ne se regardent pas dans les yeux. Un groupe d’étudiants de l’Institut Fédéral de Technologie de Zurich a trouvé une solution technique pour corriger ce problème grâce à un capteur Kinect et un logiciel qui fonctionne avec le service VoIP Skype. Claudia Kuster, qui a mené ce projet, a livré tous les détails à Futura-Sciences.

au sommaire


    Le service voix sur IPvoix sur IP Skype, qui a récemment fêté ses 10 ans d'existence, compte aujourd'hui 300 millions d'utilisateurs et représente un tiers des communications internationales. Une part de plus en plus importante de ce trafic passe par des appels vidéo au cours desquels les interlocuteurs peuvent se regarder en se parlant. Mais il est un détail gênant dont les utilisateurs doivent s'accommoder qui est que l'on ne peut pas se regarder dans les yeuxyeux comme on le ferait pour une conversation normale. Pourquoi ? Parce que l'utilisateur regarde naturellement son interlocuteur sur l'écran alors que les webcams sont fixées ou intégrées dans la partie supérieure de celui-ci. Cela crée un léger décalage dans l'angle du regard qui donne l'impression que la personne avec laquelle on converse fixe la poitrine ou les épaules.

    Un groupe d'étudiants chercheurs travaillant au Computer Graphics Laboratory de l'ETH (Institut Fédéral de Technologie) de Zurich en Suisse a mis au point une technologie logicielle rectifiant l'image en temps réel afin de donner l'impression que les deux personnes se regardent droit dans les yeux. Ce genre de solution existe déjà, mais elle nécessite l'emploi de plusieurs caméras, d'un jeu de miroirsmiroirs et d'un logiciel spécial. Des systèmes complexes et onéreux réservés à un usage professionnel. Dans le cas de l'invention produite à l'ETH, le procédé repose sur un capteurcapteur de mouvementsmouvements Kinect associé à un logiciel qui combine reconnaissance faciale et analyse de la profondeur de champ. Le visage de la personne est détouré puis réorienté sous le bon angle pour donner l'impression qu'elle fixe son interlocuteur dans les yeux.

    À gauche, l’image originale issue d’une conversation vidéo sur <a href="http://blogs.skype.com/2013/06/17/avec-la-messagerie-video-restez-en-contact-ou-que-vous-soyez-quand-vous-le-voulez/" title="Le blog de Skype" target="_blank">Skype</a>. On constate que le regard de la personne est dirigé vers le haut. Au centre, le logiciel associé au capteur Kinect a extrait le visage de son contexte en conservant un contour qui sera utilisé pour fusionner l’image rectifiée dans l’arrière-plan original. 66 points de coordonnées sont appliqués sur le visage afin pouvoir le réorienter pour créer l’illusion que la personne regarde son interlocuteur droit dans les yeux, comme le montre le résultat final sur l’image de droite. © ETH, <em>Computer Graphics Laboratory</em>

    À gauche, l’image originale issue d’une conversation vidéo sur Skype. On constate que le regard de la personne est dirigé vers le haut. Au centre, le logiciel associé au capteur Kinect a extrait le visage de son contexte en conservant un contour qui sera utilisé pour fusionner l’image rectifiée dans l’arrière-plan original. 66 points de coordonnées sont appliqués sur le visage afin pouvoir le réorienter pour créer l’illusion que la personne regarde son interlocuteur droit dans les yeux, comme le montre le résultat final sur l’image de droite. © ETH, Computer Graphics Laboratory

    Reconnaissance faciale et profondeur de champ

    Le capteur Kinect commence par isoler le visage en se servant de la profondeur de champ tout en conservant un contour qui sera utilisé pour fondre le visage dans l'arrière-plan de l'image originale. Puis, à l'aide de la reconnaissance faciale, l'applicationapplication plaque 66 points de coordonnées sur certaines zones du visage, dont les yeux et la bouche, afin de les calibrer. Cette image détourée est alors réorientée sous un angle afin de créer l'illusion que la personne regarde son interlocuteur dans les yeux.

    L'angle idéal est obtenu à partir d'un paramétrage initial qui va enregistrer plusieurs critères comme la position de la fenêtrefenêtre SkypeSkype sur l'écran, l'emplacement du Kinect et la taille de la personne. Le logiciel travaille ensuite sur le contour de l'image détourée en cherchant des pixels ayant une colorimétrie proche ou similaire entre l'image originale et l'image détourée. Il peut alors fusionner le tout pour recréer une image « propre ». Le résultat est assez bluffant comme on peut le constater sur cette vidéo de démonstration.

    À la recherche d’investisseurs

    Grâce à cette technique, l'opération se fait en temps réel sans nécessiter une puissance de calcul élevée. « Notre logiciel est très léger. La version actuellement tourne à environ 20 HzHz sur un ordinateur standard », a expliqué à Futura-Sciences Claudia Kuster, doctorante à l'ETH et à l'origine de cette invention. Selon elle, sa technique a l'avantage de préserver l'expression du visage et l'intégrité de la scène, contrairement aux systèmes où l'ensemble de l'image est manipulé d'un bloc. Le logiciel peut gérer deux personnes sur le même écran et s'adapter aux conditions lumineuses. En revanche, il ne fonctionne pas avec les porteurs lunettes.

    Le groupe emmené par Claudia Kuster planche sur une solution pour que son système puisse fonctionner avec des webcams classiques qui équipent les ordinateurs, les terminaux mobilesmobiles ainsi que les téléviseurs connectés. L'autre objectif est de développer l'application sous la forme d'une extension à installer sur Skype. Claudia Kuster nous a précisé qu'un produit fini pourrait être prêt assez rapidement, pour peu que des investisseurs ou des entreprises manifestent leur intérêt.