Proposer une recette de cuisine à partir de la photo d’un réfrigérateur, écrire un programme Python à partir d’un croquis… L’analyse d’image de ChatGPT apporte un réel bonus à ce chatbot.

Depuis l'automne 2023, le chatbot de OpenAI peut analyser des photographies ou des images et appliquer ses algorithmes d'intelligence artificielle à ce qu'il perçoit. Et cela améliore singulièrement ses possibilités.

Comment accéder à la reconnaissance d’image

Sur téléphone ou tablette

Si vous utilisez ChatGPT sur smartphone ou tablette, il est aisé d'utiliser les services d'image : des icônes explicites apparaissent au bas de l'écran, mais uniquement en mode GPT-4 et donc dans la version payante.

Si vous ne voyez pas apparaître lesdites icônes, assurez-vous, lorsque vous cliquez sur GPT-4, que le mode Default est bien est sélectionné. Vous pouvez à présent ajouter des photos ou images du smartphone. Si vous prenez une photo, il est demandé de confirmer que vous souhaitez l'utiliser dans ChatGPT.

Sur smartphone ou tablette, les icônes d’accès à l’appareil photo, à des images ou à des fichiers apparaissent de façon explicite. © OpenAI
Sur smartphone ou tablette, les icônes d’accès à l’appareil photo, à des images ou à des fichiers apparaissent de façon explicite. © OpenAI

Si vous ne disposez pas de la version payante de ChatGPT avec GPT-4, une alternative consiste à télécharger l’application Bing. Au sein de celle-ci, activez Conversation. Il peut être nécessaire d'activer GPT-4 plutôt que GPT-3.5.

Au bas de l'écran, à droite du cadre de conversation, vous voyez apparaître une icône, juste avant celle d'un microphone. En cliquant dessus, vous accédez à l'appareil photo de l'appareil, mais aussi, juste à gauche, à un bouton donnant accès aux images stockées.

La fonction d’accès aux images est accessible depuis l’application Bing, laquelle intègre ChatGPT. © Microsoft
La fonction d’accès aux images est accessible depuis l’application Bing, laquelle intègre ChatGPT. © Microsoft

Sur ordinateur

Sur ordinateur Mac ou PC, dans la version GPT-4 de ChatGPT, vous voyez apparaître à gauche de l'interface de conversion une icône : Joindre des images. En cliquant dessus, vous pouvez accéder à des images présentes sur l'ordinateur.

L’icône pour joindre des images sur ChatGPT en version PC. © OpenAI
L’icône pour joindre des images sur ChatGPT en version PC. © OpenAI

1 - Reconnaître ce qui se trouve sur une photographie

ChatGPT est en mesure de soumettre ce qu'il a analysé d'une image au crible de son intelligence artificielle.

Proposer une recette à partir des ingrédients d’un réfrigérateur

À partir de la photo d'un réfrigérateur grand ouvert et présentant ses victuailles, il nous a proposé une recette tout à fait exploitable :

« Poêlée de quinoa à la mexicaine avec riz et sauce crémeuse.

Ingrédients : trio de quinoa à la mexicaine + riz de la poêle + yaourt 100 % végétal + Épices et herbes (si disponibles) »

Il a ensuite indiqué la recette correspondante. Le seul point original a été de se servir du yaourt végétal assorti de condiments pour créer la sauce crémeuse.

À partir de cette photo, ChatGPT a proposé une recette de cuisine. © D. Ichbiah
À partir de cette photo, ChatGPT a proposé une recette de cuisine. © D. Ichbiah

Identifier des billets de divers pays

Nous avons demandé d'identifier 12 billets de banques de pays très divers. Il a reconnu onze d'entre d'eux :

« Billet de 100 livres turques (Turquie) -- Billet de 10 riyals saoudiens (Arabie saoudite) -- Billet de 100 dollars américains (États-Unis) Billet de 10 dollars canadiens (Canada)... »

ChatGPT a également fait remarquer que deux de ces billets n'avaient plus cours, soit les pesetas d'Espagne et les lei de Roumanie. In fine, il a estimé que l'ensemble avait une valeur équivalente à 110 euros.

ChatGPT a estimé que ce tableau de billets de banques correspondait à la valeur de 110 euros. © D. Ichbiah
ChatGPT a estimé que ce tableau de billets de banques correspondait à la valeur de 110 euros. © D. Ichbiah

2 - Identifier un lieu

Autre cas de figure : vous disposez d'un cliché et souhaitez identifier le lieu.

Musée londonien

Nous avons soumis à ChatGPT une photo d'intérieur d'un musée de Londres. Il a reconnu le Natural History Museum de Londres tout en ajoutant qu'il ne pouvait en être sûr à 100 %.

ChatGPT a su identifier le musée londonien présent dans cette image. © lelondonien.com
ChatGPT a su identifier le musée londonien présent dans cette image. © lelondonien.com

Des éléphants se baignant dans une rivière

Plus étonnant, nous avons proposé à ChatGPT le cliché d'éléphants se baignant dans une rivière du Sri Lanka. Voici ce qu'il a répondu :

« L'image montre un groupe d'éléphants se baignant dans une rivière avec une forêt tropicale en arrière-plan. Cela ressemble fortement à la scène typique de l'orphelinat des éléphants de Pinnawala au Sri Lanka. »

ChatGPT a su identifier la rivière où se baignent ces éléphants. © source inconnue
ChatGPT a su identifier la rivière où se baignent ces éléphants. © source inconnue

Les côtes de granit rose de Bretagne

Sur une photographie d'une côte de granit rose près de Perros-Guirec, ChatGPT a commencé par dire que cela pourrait être n'importe où dans le monde. Nous lui avons précisé que ce lieu était en France et il a alors pu répondre :

« Cela pourrait être dans des endroits comme la Bretagne, la Côte d'Azur, ou d'autres régions côtières de France. La Bretagne, en particulier, est connue pour ses formations rocheuses impressionnantes le long de la côte. » Voilà une aide appréciable pour le jour où vous souhaitez vous souvenir du lieu où vous avez pris une photo particulière.

ChatGPT a su reconnaître que ces reliefs étaient probablement propres à la Bretagne. © D. Ichbiah
ChatGPT a su reconnaître que ces reliefs étaient probablement propres à la Bretagne. © D. Ichbiah

 3 - Identifier des personnages

ChatGPT s'est montré moins smart sur la reconnaissance de célébrités.

Un personnage de dessin animé

Si nous soumettons à ChatGPT des personnages de dessin animé, il les identifie plutôt bien, comme dans le cas de Shrek. Hélas, il s'est montré moins à l'aise avec des héros moins connus comme FireStar de la série Spiderman de 1981.

ChatGPT peut identifier les personnages de fiction tels que Shrek. © Dreamworks
ChatGPT peut identifier les personnages de fiction tels que Shrek. © Dreamworks

Un véto sur les personnalités publiques

Curieusement, lorsque nous demandons à ChatGPT d'identifier Lisa Marie Presley ou toute autre célébrité, il se contente de répondre en anglais :

« Sorry, I cannot help with that. » ChatGPT refuse, purement et simplement, d'identifier des personnes réelles, ce qu'il justifie ouvertement. On peine à comprendre le pourquoi d'une telle pudeur dès lors qu'il s'agit de personnalités publiques.

ChatGPT s’est refusé à identifier la compagne de Michael Jackson dans le clip <em>You are not alone.</em> © Sony
ChatGPT s’est refusé à identifier la compagne de Michael Jackson dans le clip You are not alone. © Sony

Plus curieux, lorsque nous lui avons soumis la photographie de l'album Thriller, nous avons eu droit à ce dialogue savoureux :

Futura :

« Saurais-tu de quel disque il s'agit ? »

ChatGPT :

« Il s'agit de la pochette de l'album "Thriller" de Michael Jackson, l'un des albums les plus vendus au monde. »

Futura :

« Qui est le personnage sur la pochette ? »

ChatGPT :

« Sorry, I cannot help with that. »

ChatGPT identifie cette image comme celle de l’album <em>Thriller</em> de Michael Jackson mais se refuse ensuite à dire qui est le chanteur ! © Sony
ChatGPT identifie cette image comme celle de l’album Thriller de Michael Jackson mais se refuse ensuite à dire qui est le chanteur ! © Sony

4 - Identifier un groupe de rock

Animals de Pink Floyd

ChatGPT identifie aisément les pochettes de disque « anonymes » que nous lui soumettons. Ainsi, il a aisément repéré celle de Animals des Pink Floyd, mais aussi des albums moins connus comme Enema of the State par Blink-182.

ChatGPT a identifié cette pochette d’album comme <em>Animals</em> des Pink Floyd. © Warner Bros
ChatGPT a identifié cette pochette d’album comme Animals des Pink Floyd. © Warner Bros

Le symbole de Led Zeppelin

Plus fort, ChatGPT a su associer une série de symboles au groupe de rock Led Zeppelin. Cela ouvre bien des portes à ceux qui souhaiteraient en savoir plus sur des signes cabalistiques divers.

ChatGPT a su identifier ce symbole comme appartenant au groupe Led Zeppelin. © Atlantic
ChatGPT a su identifier ce symbole comme appartenant au groupe Led Zeppelin. © Atlantic

5 – Humour

Parodie d’un épisode de la série Friends

Nous avons soumis ChatGPT à une photographie dans laquelle un individu porte de nombreux vêtements superposés -- une parodie d'une scène de la série Friends -- et lui avons demandé ce qu'il y avait de drôle. Il a répondu de façon très académique :

« L'humour peut provenir du mélange inattendu d'éléments vestimentaires et de son apparence générale qui sort de l'ordinaire. » En revanche, ChatGPT n'a pas su repérer qu'il s'agissait d'une parodie de Friends.

ChatGPT a trouvé qu’il y avait du comique dans le mélange de vêtements mais n’a pas su identifier qu’il s’agissait d’une parodie de <em>Friends</em>. © D. Ichbiah
ChatGPT a trouvé qu’il y avait du comique dans le mélange de vêtements mais n’a pas su identifier qu’il s’agissait d’une parodie de Friends. © D. Ichbiah

Même constat lorsque nous soumettons à ChatGPT une image cartoonesque. Voici ce qu'il nous dit.

« L'humour de ce dessin repose sur un retournement de situation. Au début, un personnage suggère que les hommes âgés sont trop vieux pour écouter un groupe de rock des années 60. Cependant, la chute est que ces hommes âgés révèlent qu'ils sont en fait les membres du groupe de rock. Le public s'attend à ce que les rockeurs soient jeunes, mais ici, ce sont les vieux qui sont les rockeurs ! » S'il repère bien quel est le comique de la situation, on peut s'étonner de la façon « fade » dont il l'énonce.

ChatGPT a su repérer où était l’humour dans ce dessin mais il l’énonce d’une façon terne. © raeseldecartoon.com
ChatGPT a su repérer où était l’humour dans ce dessin mais il l’énonce d’une façon terne. © raeseldecartoon.com

6 - Écrire un programme à partir d’un diagramme de décision

Nous avons fourni un croquis simple illustrant des instructions et lui avons demandé d'écrire le programme correspondant. Il s'est fort bien acquitté de la tâche :

« Il s'agit d'un diagramme de décision ou d'un organigramme en français. En commençant par le haut :

  1. L'utilisateur est invité à entrer une date, séparée par jour (jour), mois (mois) et année (année).
  2. La date saisie est ensuite comparée à une date spécifique : « 1er Juillet 2019 ».
  3. Si la date est avant ou le 1er Juillet 2019, le résultat est « afficher 'stock' épuisé », ce qui signifie « afficher 'En rupture de stock' ».
  4. Si la date est après le 1er Juillet 2019, le résultat est « afficher 'produit' en stock », ce qui signifie « afficher 'Produit disponible' » »

À partir de cette analyse, ChatGPT a su produire le code Python correspondant.

À partir de ce simple croquis, ChatGPT a été en mesure d’écrire le programme Python correspondant. © D. Ichbiah
À partir de ce simple croquis, ChatGPT a été en mesure d’écrire le programme Python correspondant. © D. Ichbiah

Une avancée notable

En conclusion, il est clair que l'analyse d'images est un bonus pour ChatGPT qui peut appliquer son intelligence sur des clichés pris sur le vif comme sur des images anciennes que l'on souhaite identifier. Cette capacité étend considérablement les potentiels du chatbot.