Google vient de présenter sa nouvelle intelligence artificielle nommée Lumiere, qui génère des vidéos d’une qualité bien supérieure à celle de la concurrence. Ce nouvel outil s'exécute à partir d’une simple requête textuelle ou d’une image statique, et est même capable de modifier un clip vidéo.
au sommaire
Les intelligences artificielles génératives ont beaucoup progressé cette dernière année pour tout ce qui concerne la génération de texte ou d'images. Toutefois, le domaine de la vidéo en est encore à ses balbutiements. L'une des meilleures IA vidéo jusqu'à présent est Stable Video Diffusion, de Stability AI, mais la qualité laisse encore à désirer. Désormais, c'est GoogleGoogle qui prend la tête grâce à une nouvelle IA baptisée Lumiere.
La qualité des vidéos produites par Lumiere représente un nouveau bond en avant. Elles durent cinq secondes, avec une définition de 1 024 x 1 024 pixels. Selon Google, plutôt que de générer le début et la fin de la vidéo puis de compléter avec l'animation entre les deux, Lumiere génère tout en une seule passe grâce à une architecture « Space-Time U-Net » qui travaille « dans une représentation de l'espace-tempsespace-temps compacte ».
Une vidéo qui peut se créer à partir d'un texte, d'une image ou d'une vidéo
L'IA fonctionne avec plusieurs modes, à commencer par de simples requêtes textuelles. Toutefois, il est également possible de fournir une image en même temps qui servira de référence pour le stylestyle visuel de la vidéo. Lumiere peut aussi animer une image, ou créer un cinémagraphe en animant uniquement une zone sélectionnée d'une image, comme un feufeu ou la fumée qui sort d'une cheminéecheminée.
De plus, l’IA propose deux fonctions pour éditer des vidéos. La première change le style d'un objet, par exemple en modifiant la couleurcouleur d'une robe, ou en transformant une personne en Lego. La seconde permet de remplir une zone masquée de l'image, en générant les éléments manquants. Un moyen simple de faire disparaître des personnes indésirables à l'arrière-plan d'un clip, mais qui pourrait aussi servir à gommer le logo ou le filigrane sur des vidéos.
Pour l'heure, il ne s'agit que d'un projet de recherche, ce qui signifie qu'il n'est pas accessible au public.