Ces scènes en 3D ont été générées par une intelligence artificielle à partir d’une image

Une nouvelle startup vient de dévoiler un petit aperçu de sa première intelligence artificielle, capable de transformer une image en deux dimensions en scène 3D. Entrez dans des photos, et explorez des tableaux ou des scènes fantastiques.

au sommaire

La startup World Labs vient de dévoiler sa première intelligence artificielle (IA), capable de créer un environnement 3D interactifinteractif et persistant à partir d'une simple image. Cela peut rappeler d'autres IA, comme GoogleGoogle GameNGen qui peut générer le jeu Doom, sauf que GameNGen est limité à une mémoire de trois  secondes. Ou bien encore, Google Genie qui a une mémoire plus longue, mais qui est spécialisé dans les jeux de plateforme, donc en deux dimensions.

World Labs n'est pas n'importe quelle startup, puisqu'elle a été fondée par Fei-Fei Li, une pionnière en matièrematière de vision par ordinateur et créatrice de la base de données ImageNet. Il ne s'agit pas d'un jeu vidéo, mais offre la possibilité d'explorer une scène en trois dimensions. Une démonstration sur le blog de World Labs permet de naviguer différentes scènes à la souris et au clavier.

Bientôt des mondes entiers générés à partir d’un prompt

Ces scènes s'inscrivent dans une nouvelle catégorie baptisée world models, ou « modèles de monde », des simulations qui respectent les règles de la géométrie et les lois de la physiquephysique. C'est l'inverse des vidéos générées par IA qui peuvent donner des résultats assez peu crédibles. L'IA de World Labs peut produire des scènes à partir d'images générées par IA ou de photos.

Il est ainsi possible d'entrer dans des tableaux célèbres, avec des exemples de tableaux peints par Van Gogh, Hopper, Seurat, et Kandinsky. Les déplacements sont pour l'instant assez limités, mais il est possible de tourner à 360 degrés. Le modèle permet également d'appliquer différents effets, comme changer la couleurcouleur, animer les feuilles d'arbresarbres, ou encore modifier la profondeur de champ.

Si ces mondes semblent assez limités, World Labs précise qu'il ne s'agit pour l'instant que d'un aperçu préliminaire. L'équipe indique travailler sur la taille et la fidélité du monde, ainsi que sur la recherche de nouveaux moyens d'interagir avec. À terme, ce modèle pourrait être combiné avec un modèle de génération d'images, comme Dall-E ou Midjourney, pour générer des mondes entiers à partir d'une simple phrase.