au sommaire
L’algorithme de reconnaissance faciale GaussianFace est capable d’identifier une personne sur différents clichés, et ce même s’il existe de grandes différences dans la pose, l’éclairage, l’aspect physique, etc. Lors de tests réalisés sur la base de données Labeled Faces in the Wild, Il a obtenu un taux de réussite de 98,52 %, contre 97,53 % pour les participants humains. © Labeled Faces in the Wild
Lorsqu'on regarde plusieurs photos d'une même personne, il arrive parfois que l'on ait du mal à la reconnaître. L'angle de prise de vue, les conditions d'éclairage, des changements physiquesphysiques (lunettes, barbe, coupe de cheveux, maquillage, etc.), des expressions différentes ou tout simplement les effets du temps peuvent induire en erreur. Autant de conditions que les systèmes de reconnaissance faciale maîtrisent très mal, ce qui les rend nettement moins performants que les humains. En tout cas les rendait moins performants jusqu'à aujourd'hui... En effet, deux chercheurs de l'université chinoise de Hong Kong, Chaochao Lu et Xiaoou Tang, viennent de dévoiler un algorithme de reconnaissance faciale capable de gérer ces variations complexes et d'identifier une personne sur deux photos différentes avec une précision supérieure à celle d'un humain.
GaussianFace, tel est son nom, a obtenu un pourcentage de réussite de 98,52 % lors de tests avec la base de données Labeled Faces in the Wild (LFW), là où les humains n'atteignent « que » 97,53 %. LFW est un outil de référence pour les travaux sur la reconnaissance faciale. Elle contient 13.000 photos des visages de 6.000 personnalités publiques collectées sur Internet grâce à la méthode de détection d'objets de Viola et Jones. L'intérêt est que ces photos sont très variées dans leur exposition, la pose, l'âge, le sexe, l'origine ethnique et d'autres paramètres. En outre, 1.680 personnes figurant dans cette base de données ont au minimum deux photos différentes.
GaussianFace normalise chaque photo qu'on lui soumet en une image de 150 x 150 pixels qu'il transforme en retenant cinq critères : la position des deux yeuxyeux, du neznez et des deux coins de la bouche. L'image est ensuite divisée en morceaux de 25 x 25 pixels qui se superposent. Puis chaque morceau est détaillé sous forme de vecteurs, ce qui permet à l'algorithme de travailler à la recherche de similitudes. Mais c'est au niveau de la technique d'entraînement de GaussianFace que Chaochao Lu et Xiaoou Tang ont développé une méthode multitâche innovante. Leurs résultats sont disponibles sur arxiv.
Pour améliorer les performances de leur algorithme de reconnaissance faciale, deux chercheurs de l’université chinoise de Hong Kong ont imaginé une technique d'entraînement innovante. Ils ont eu recours à quatre bases de données différentes afin de confronter leur programme au plus grand nombre de variations possibles. © Multi-PIE
Entraînement multitâche à la reconnaissance faciale
L'approche classique consiste à se servir d'une seule base de données pour former un algorithme et à utiliser un échantillon d'images provenant de la même base pour le tester. Le problème est que lorsque l'algorithme est confronté à des images totalement différentes de la source utilisée pour l'entraîner, il perd fortement en efficacité. Pour GaussianFace, les deux chercheurs ont employé quatre bases de données différentes, dont Multi-PIE (750.000 photos de 337 personnes prises sous 15 points de vue et 19 conditions d'éclairages différents) et Life Photos (10 photos différentes de 400 personnes). Une fois l'entraînement accompli, GaussianFace a été testé sur la base de données LFW avec le taux de réussite mentionné plus haut.
Malgré l'importance des progrès réalisés avec cette méthode, les auteurs reconnaissent que le succès sur les performances humaines n'a qu'une signification « symbolique », et cela pour plusieurs raisons. Tout d'abord, pour reconnaître une personne, les humains ont recours à de nombreux indices visuels qui ne sont pas situés sur le visage mais sur le reste du corps, comme les épaules et le cou. Or, dans le test réalisé avec la base de données LFW, les participants n'examinent que des visages. Par ailleurs, les humains sont plus performants pour reconnaître des visages familiers sur des photos très différentes, ce qui n'est pas le cas avec des visages d'inconnus. Les capacités humaines ne sont pas exploitées pleinement sur ce test. En revanche, la pertinence de l'entraînement multitâche de GaussianFace est validée.
Cette technique pose encore des inconvénients importants en ce qui concerne le temps de formation nécessaire, la quantité de mémoire requise et la duréedurée d'exécution du processus. L'une des pistes envisagées est de recourir au calcul parallèle croisé avec des techniques de traitement informatique plus personnalisées. Il y a donc encore du chemin à parcourir, mais l'on sait désormais qu'une reconnaissance faciale très performante est envisageable dans un avenir proche.