au sommaire
Pouvons-nous encore faire confiance à ce que nous voyons ? Grâce à l'intelligence artificielle, on a déjà pu transformer un cheval en zèbre, faire prononcer un discours qu'il n'a jamais dit à quelqu'un, coller un visage sur le corps d'une d'actrice porno dans une vidéo, transformer des extraits audio en ajoutant des mots, incruster des éléments de paysage sur une photo ou transférer des mouvements de danse sur une autre personne.
La dernière avancée de DeepMind, l'IA de GoogleGoogle, a encore franchi un pas cette semaine en créant de toutes pièces des images n'ayant jamais existé. Andrew Brocks, un stagiaire de Google, et deux ingénieurs de DeepMind ont généré des images bluffantes de réalismeréalisme de chienschiens, hamburgers, paysages ou papillons, impossibles à différencier d'une vraie photographiephotographie. Le principe repose sur un mécanisme déjà connu : les réseaux antagonistes génératifs (en anglais generative adversarial networks, ou GAN). Dans ce système, deux réseaux neuronaux travaillent en parallèle, l'un créant les images et l'autre les confrontant à des images réelles. Si l'image est jugée recevable, l'algorithme continue la conception.
Ces chiens, champignons ou plats de spaghettis n’ont jamais existé. Ils ont été créés de toutes pièces par l’IA DeepMind. © Oriol Vinyals
Un réseau neuronal super puissant
La grande différence réside ici dans la puissance de calcul considérable : les équipes de Google parlent d'ailleurs de « BigGAN ». L'algorithme utilise 158 millions de paramètres pour la génération des images et 2.048 échantillons à chaque comparaison. Les images ainsi créées ont obtenu un IS (Inception Score, qui mesure la qualité et la diversité des images générées) trois fois supérieur aux précédentes expériences et un FID (Fréchet Inception Distance, qui évalue la « distance » entre les fausses images et les réelles) deux fois inférieur.
À chaque étape, un réseau neuronal génère une image et un deuxième valide en parallèle sa pertinence en la comparant à des images réelles. © Oriol Vinyals
Officiellement, ces recherches ont pour objectif de pouvoir générer des images à partir de simples mots. On peut ainsi imaginer une IA produisant un film à partir d'un scénario, ou des illustrations automatiques de textes. Mais dans l'immédiat, on a du mal à voir autre chose qu'une duperie organisée dans ce travail. « Il n'y a aucune applicationapplication pratique à part celle de générer des fausses photos hyperréalistes de chiens », reconnaît lui-même Andrew Brocks. « Mais il est important d'apprendre comment sont structurées les images générées par IA pour mieux les détecter », estime l'étudiant au centre de robotique d'Édimbourg (Royaume-Uni).
La création d’une image de 512 pixels génère autant d’électricité que la consommation d’un foyer français durant six mois. © Oriol Vinyals
Fausses photos, vrai gouffre énergétique
Dans une ère de suspicion généralisée quant aux fausses infos, l'étude de DeepMind a en tout cas fait les gros titres des journaux sur le thème d'une possible manipulation des foules à grande échelle. Mais outre le fait que les infos truquées n'ont pas attendu l'IA pour envahir la toile, les images de DeepMind ne risquent pas de se répandre à grande échelle pour le moment. Car la génération de telles images nécessite des puissances de calcul incommensurables.
Il faut ainsi un module de 512 TPUv3 Google (Tensor Processing Unit ou unité de traitement de tenseurtenseur) et 24 à 48 heures de calculs pour générer une seule image de 512 pixels de large. Sachant que chaque TPU consomme environ 200 Wh, cela représente entre 2.457 et 4.915 kWh par image créée. Soit la consommation électrique moyenne d'un foyer français pendant six mois. « La bonne nouvelle, c'est que l'intelligence artificielle permet de créer une image hyperréaliste d'un plat de spaghettis. La mauvaise, c'est que cela nécessite autant d'électricité que la consommation de la ville de Cleveland [386.000 habitants] pour un après-midi », raille le chercheur et artiste digitaldigital Jet Thorp sur Twitter.
Ce qu’il faut
retenir
- Grâce aux réseaux de neurones antagonistes génératifs (GAN), il est possible de créer des photos de toutes pièces.
- Ce type de recherche alimente les peurs de manipulation à grande échelle.
- La technologie est cependant loin d’être accessible à tout le monde.