OpenAI, l’entreprise derrière ChatGPT et Dall-E, vient de dévoiler une nouvelle intelligence artificielle dédiée aux vidéos. Baptisée Sora, elle représente un énorme bond en avant par rapport à tout ce qui existe déjà, mais un lancement public n’est pas encore prévu.
au sommaire
Cela fait quelques semaines à peine que GoogleGoogle a annoncé Lumière, une intelligence artificielle capable de générer des clips vidéo de cinq secondes d'une qualité jusqu’ici inégalée. Mais les choses évoluent de plus en plus vite dans ce domaine et une nouvelle IA vient de battre celle de Google a plate couture. Voici Sora d'OpenAI, une intelligence artificielle capable de générer des vidéos ultraréalistes qui peuvent durer jusqu'à une minute.
À partir d'une simple phrase, Sora peut générer une scène complexe, en Full HD (1 920 x 1 080 pixels) et même simuler plusieurs prises de vue. Le modèle se base sur une architecture de type transformer, et représente les données sous forme de « patches », l'équivalent des tokenstokens du modèle GPT. L'IA n'est d'ailleurs pas limitée à des requêtesrequêtes textuelles, elle peut aussi partir d'une image, ou même compléter une vidéo existante. Le site du projet contient un grand nombre de vidéos générées, comme par exemple, une femme qui se promène dans les rues de Tokyo.
Des vidéos bluffantes mais encore imparfaites
À ce stade, il est encore assez facile de repérer qu'il s'agit de vidéos générées par IA. Certains détails montrent ses limites, comme des objets ou des personnes en arrière-plan qui disparaissent ou apparaissent comme par magie, ou encore des personnes géantes au premier plan. Et sans surprise, Sora a le même problème que toutes les autres IA avec le texte généré, par exemple sur les panneaux. Néanmoins, il représente une avancée époustouflante dans ce domaine.
Pour l'instant, Sora n'est pas accessible au public. OpenAI indique qu'ils travaillent avec des spécialistes de la désinformation, des contenus haineux et des préjugés pour rendre le modèle plus sûr, et développe des outils afin de pouvoir identifier les vidéos générées par Sora.