En cette fin d'année, Google présente ses nouveaux modèles de génération d'images et de vidéos, Imagen 3 et Veo 2. Ce dernier se présente comme un concurrent sérieux à Sora, d'OpenAI.
au sommaire
La guerre des intelligences artificielles génératives prend un nouveau tournant avec les récentes annonces de GoogleGoogle. La société californienne se targue d'avoir développé le modèle de génération de vidéos le plus performant du moment avec Veo 2.
Il faut dire qu'il propose une avancée spectaculaire, avec notamment une meilleure compréhension de la physiquephysique, dans le mouvementmouvement des corps et des objets, et de l'expression humaine en général.
Today, we’re announcing Veo 2: our state-of-the-art video generation model which produces realistic, high-quality clips from text or image prompts. ????
— Google DeepMind (@GoogleDeepMind) December 16, 2024
We’re also releasing an improved version of our text-to-image model, Imagen 3 - available to use in ImageFX through… pic.twitter.com/h6ejHaMUM4
Une qualité d'image supérieure selon Google
Selon Google, le modèle peut s'adapter à une multitude d'effets cinématographiques (plan serré ou large, vues en contre-plongée, travelling avant ou arrière, etc.) pour créer des séquences inédites en ultra haute définitionultra haute définition (4K) d'une duréedurée pouvant atteindre plusieurs minutes. Sur le papier, c'est encore plus impressionnant que ce que propose OpenAI avec Sora, un outil certes bluffant mais qui manque parfois de fluidité et peut aussi avoir du mal à coordonner certains mouvements.
En parallèle, Google présente Imagen 3, la toute dernière version de son générateurgénérateur d'images. Il garantit des images plus lumineuses et d'une manière générale mieux composées, dans des stylesstyles artistiques plus variés, du photoréalisme à l'impressionnisme en passant par l'abstrait et l'animé.
I decided to put @GoogleDeepMind Imagen 3 to the test with a series of prompts that push its photography language understanding.
— Ryan Morrison (@RyanMorrisonJer) December 17, 2024
The prompt: "Street-level photograph of a bustling London street on a rainy day, people holding umbrellas as reflections shimmer on wet pavement,… pic.twitter.com/2q9mAlgwKF
Whisk : le nouveau générateur d'images par IA basé sur la créativité
Enfin, Google lance Whisk, un nouvel outil capable de générer des images sans prompt, mais plutôt à partir d'autres éléments, photos ou dessins, comme sources d'inspiration. En combinant plusieurs visuels, comme un portrait et un paysage par exemple, l'outil crée de nouvelles images, uniques et personnalisées.
Meet Whisk! ???? Use images as prompts to visualize your ideas quickly: https://t.co/vu2ec0Uq9Q Input an image for the subject, scene, style and go!
— Addy Osmani (@addyosmani) December 16, 2024
Powered by Google's new Imagen 3 model. pic.twitter.com/Gwh8i9YmI6
Veo 2 et Imagen3 sont pour le moment réservés aux créateurs YouTubeYouTube et aux entreprises qui utilisent VideoFX et ImageFX de Google Labs, pas encore accessibles en France. De son côté, Whisk est disponible au stade expérimental, également via Google Labs et uniquement aux États-Unis.