Le MIT a développé un modèle d’apprentissage automatique qui parvient à identifier les objets présents dans une image, en se basant uniquement sur une description vocale. Une avancée très prometteuse pour la reconnaissance vocale et la traduction en temps réel.

au sommaire


    Une intelligence artificielle (IAIA) est désormais capable d'identifier les objets composant une image à partir d'une description audio. C'est une équipe du Computer science and artificial intelligenceintelligence laboratory au MIT qui est à l'origine de cette avancée dont le principal atout est de ne pas utiliser de données annotées manuellement pour l'entraînement de son algorithme d'apprentissage automatique (machine learning). En effet, le système apprend les mots à partir des extraits vocaux et des objets images brutes qu'il associe les uns aux autres.

    L'entraînement de l'algorithme repose sur deux réseaux neuronaux convolutifs, l'un en charge du traitement des images décomposées en grilles de pixels, l'autre des spectrogrammes (représentation visuelle des signaux audio) décomposés en segments de quelques secondes contenant un ou deux mots. Les deux réseaux travaillent avec une base de données de 400.000 paires image/légende.

    L’IA associe des pixels à des mots

    Avec la paire d'image et de légende correcte, le modèle fait correspondre la première cellule de la grille au premier segment audio, puis fait correspondre cette même cellule avec le deuxième segment audio et ainsi de suite. Les chercheurs ont réalisé des tests à partir de l'image d'une jeune fille aux cheveux blonds et aux yeuxyeux bleus, vêtue d'une robe bleue avec un phare blanc au toittoit rouge en arrière-plan. L'IA a appris quels pixels correspondaient aux mots « fille », « cheveux blonds », « yeux bleus », « toit rouge », etc. Et lorsqu'une description audio de l'image était lue, la machine surlignait chacun de ces éléments au fur et à mesure.

    Dans son article scientifique, l'équipe du MIT estime que ses travaux sont très prometteurs pour la reconnaissance vocale et la traduction en temps réel. Selon elle, sur les 7.000 langues parlées à travers le monde, seulement une centaine disposent de suffisamment de données annotées pour pouvoir être prises en charge par des systèmes de reconnaissance vocale. Grâce à ce modèle de machine learning, deux personnes pourraient décrire une image dans leurs langues respectives et le logiciellogiciel pourrait alors faire le rapprochement entre les mots faisant référence aux mêmes objets et les traduire.