Des chercheurs ont utilisé l’intelligence artificielle pour générer des images de rues et de paysages à partir de clips audio. Les résultats sont d’une précision étonnante, allant jusqu’à reproduire la couverture nuageuse ou la quantité de verdure.


au sommaire


    Alors qu'il existe des intelligences artificielles capables de générer des effets sonores à partir d'une image ou une vidéo, voici une nouvelle IA capable de faire l'inverse. Dans un article publié dans la revue Computers, Environment and Urban Systems, des chercheurs de l’université du Texas à Austin ont mis au point une IA capable de générer des images de rues à partir d'enregistrements audio.

    Les chercheurs ont entraîné un modèle de diffusiondiffusion utilisant des clips audio de 10 secondes pris sur YouTubeYouTube, enregistrés dans des rues et associés à des photos de ces rues, et ce pour des villes en Amérique du Nord, en Asie et en Europe. Ils ont ensuite généré des images à partir de 100 clips audio. Lorsque des volontaires ont dû choisir entre trois images de rues générées par IA, ils ont pu correctement identifier celle générée à partir du clip audio écoutée dans 80 % des cas.

    Comparaison de paires d’images liées à des enregistrements audio. À gauche, une image générée à partir de l’enregistrement ; à droite, une photo de la scène enregistrée. © Université du Texas à Austin
    Comparaison de paires d’images liées à des enregistrements audio. À gauche, une image générée à partir de l’enregistrement ; à droite, une photo de la scène enregistrée. © Université du Texas à Austin

    Une IA capable de reproduire jusqu’au ciel et le style architectural !

    Les chercheurs ont ensuite analysé le contenu des images et ont découvert une forte corrélation entre les quantités de verdure ou de ciel dans les images générées et dans les images réelles. Ils ont également relevé une corrélation entre les proportions des bâtiments dans ces deux images. L'IA a même fréquemment réussi à reproduire le même stylestyle architectural et la distance entre les objets. Cela concerne aussi les conditions climatiques, à savoir un ciel dégagé, nuageux, ou encore s'il fait nuit. L'IA semble utiliser certains indices sonores, comme les bruits de circulation ou d'insectesinsectes.

    Le but de l'étude n'était pas simplement de créer une nouvelle forme d'IA. « Les résultats peuvent améliorer notre connaissance de l'impact des perceptions visuelles et auditives sur la santé mentale humaine, guider les pratiques d'aménagement urbain pour la création de lieux et améliorer la qualité de vie globale dans les communautés », indiquent les chercheurs.