L’entreprise OpenAI, spécialisée dans l’intelligence artificielle, vient de mettre au point un réseau neuronal capable de générer des images photoréalistes. Une simple phrase de texte suffit à créer quasiment n’importe quel montage imaginable.
au sommaire
OpenAI vient de publier une seconde version de son intelligence artificielle dédiée à la génération d'images. Baptisée DALL-E 2 (prononcé comme le peintre Dalí), elle est capable de transformer une simple phrase de texte en image photoréaliste. La première version se contentait d'un dessin sur un fond uni. Cette nouvelle IA réalise des compositions beaucoup plus complexes.
OpenAI est un concurrent direct à DeepMind de GoogleGoogle. Cette entreprise dédiée à l'IA a été fondée, entre autres, par Elon MuskElon Musk et a reçu des investissements de MicrosoftMicrosoft. Son DALL-E 2 ressemble au GauGAN (prononcé comme le peintre Gauguin...) de Nvidia, d'abord capable de transformer un croquis en paysage photoréaliste, puis de faire la même chose à partir d'une phrase de texte.
Explication du fonctionnement de l’IA DALL-E avec de nombreux exemples. (En anglais, activez la traduction automatique des sous-titres.) © OpenAI
L’IA peut aussi produire des variantes d’une image existante
Toutefois, DALL-E 2 est beaucoup plus complexe que la concurrence car elle ne se contente pas de paysages. L'IA est capable de créer une image associant plusieurs éléments courants, comme « un ours en peluche faisant du skateboard à Times Square ». Le système s'appuie sur CLIP, un réseau neuronal d’OpenAI entraîné sur un grand nombre d'images avec description. Cette IA a été conçue pour analyser une image et proposer une description, mais ici effectue l'opération inverse. Une deuxième étape vient ensuite décoder le résultat de la première afin de créer une image cohérente.
Ce système en deux étapes permet également d'autres possibilités. L'IA est capable de prendre une image existante et de remplacer un élément, ou de créer une variante inspirée de l'original en modifiant l'angle, la pose, et l'aspect du sujet. Toutefois, pour éviter les abus, l'IA ne peut pas générer d'images photoréalistes de visages humains, et la firme a limité sa capacité à produire des images avec du contenu pour adulte ou de la violence.