Google s'attaque à OpenAI avec des IA génératives d'images et de vidéos impressionnantes !

En cette fin d'année, Google présente ses nouveaux modèles de génération d'images et de vidéos, Imagen 3 et Veo 2. Ce dernier se présente comme un concurrent sérieux à Sora, d'OpenAI.

au sommaire

La guerre des intelligences artificielles génératives prend un nouveau tournant avec les récentes annonces de GoogleGoogle. La société californienne se targue d'avoir développé le modèle de génération de vidéos le plus performant du moment avec Veo 2.

Il faut dire qu'il propose une avancée spectaculaire, avec notamment une meilleure compréhension de la physiquephysique, dans le mouvementmouvement des corps et des objets, et de l'expression humaine en général.

Today, we’re announcing Veo 2: our state-of-the-art video generation model which produces realistic, high-quality clips from text or image prompts. ????

We’re also releasing an improved version of our text-to-image model, Imagen 3 - available to use in ImageFX through… pic.twitter.com/h6ejHaMUM4
— Google DeepMind (@GoogleDeepMind) December 16, 2024

Une qualité d'image supérieure selon Google

Selon Google, le modèle peut s'adapter à une multitude d'effets cinématographiques (plan serré ou large, vues en contre-plongée, travelling avant ou arrière, etc.) pour créer des séquences inédites en ultra haute définitionultra haute définition (4K) d'une duréedurée pouvant atteindre plusieurs minutes. Sur le papier, c'est encore plus impressionnant que ce que propose OpenAI avec Sora, un outil certes bluffant mais qui manque parfois de fluidité et peut aussi avoir du mal à coordonner certains mouvements.

En parallèle, Google présente Imagen 3, la toute dernière version de son générateurgénérateur d'images. Il garantit des images plus lumineuses et d'une manière générale mieux composées, dans des stylesstyles artistiques plus variés, du photoréalisme à l'impressionnisme en passant par l'abstrait et l'animé.

I decided to put @GoogleDeepMind Imagen 3 to the test with a series of prompts that push its photography language understanding.

The prompt: "Street-level photograph of a bustling London street on a rainy day, people holding umbrellas as reflections shimmer on wet pavement,… pic.twitter.com/2q9mAlgwKF
— Ryan Morrison (@RyanMorrisonJer) December 17, 2024

Whisk : le nouveau générateur d'images par IA basé sur la créativité

Enfin, Google lance Whisk, un nouvel outil capable de générer des images sans prompt, mais plutôt à partir d'autres éléments, photos ou dessins, comme sources d'inspiration. En combinant plusieurs visuels, comme un portrait et un paysage par exemple, l'outil crée de nouvelles images, uniques et personnalisées.

Meet Whisk! ???? Use images as prompts to visualize your ideas quickly: https://t.co/vu2ec0Uq9Q Input an image for the subject, scene, style and go!

Powered by Google's new Imagen 3 model. pic.twitter.com/Gwh8i9YmI6
— Addy Osmani (@addyosmani) December 16, 2024

Veo 2 et Imagen3 sont pour le moment réservés aux créateurs YouTubeYouTube et aux entreprises qui utilisent VideoFX et ImageFX de Google Labs, pas encore accessibles en France. De son côté, Whisk est disponible au stade expérimental, également via Google Labs et uniquement aux États-Unis.