Proposer une recette de cuisine à partir de la photo d’un réfrigérateur, écrire un programme Python à partir d’un croquis… L’analyse d’image de ChatGPT apporte un réel bonus à ce chatbot.
au sommaire
Depuis l'automneautomne 2023, le chatbot de OpenAIchatbot de OpenAI peut analyser des photographiesphotographies ou des images et appliquer ses algorithmes d'intelligence artificielle à ce qu'il perçoit. Et cela améliore singulièrement ses possibilités.
Comment accéder à la reconnaissance d’image
Sur téléphone ou tablette
Si vous utilisez ChatGPT sur smartphone ou tablette, il est aisé d'utiliser les services d'image : des icônes explicites apparaissent au bas de l'écran, mais uniquement en mode GPT-4 et donc dans la version payante.
Si vous ne voyez pas apparaître lesdites icônes, assurez-vous, lorsque vous cliquez sur GPT-4GPT-4, que le mode Default est bien est sélectionné. Vous pouvez à présent ajouter des photos ou images du smartphone. Si vous prenez une photo, il est demandé de confirmer que vous souhaitez l'utiliser dans ChatGPT.
Si vous ne disposez pas de la version payante de ChatGPT avec GPT-4, une alternative consiste à télécharger l’application Bing. Au sein de celle-ci, activez Conversation. Il peut être nécessaire d'activer GPT-4 plutôt que GPT-3.5.
Au bas de l'écran, à droite du cadre de conversation, vous voyez apparaître une icône, juste avant celle d'un microphone. En cliquant dessus, vous accédez à l'appareil photo de l'appareil, mais aussi, juste à gauche, à un bouton donnant accès aux images stockées.
Sur ordinateur
Sur ordinateur Mac ou PC, dans la version GPT-4 de ChatGPT, vous voyez apparaître à gauche de l'interface de conversion une icône : Joindre des images. En cliquant dessus, vous pouvez accéder à des images présentes sur l'ordinateur.
1 - Reconnaître ce qui se trouve sur une photographie
ChatGPT est en mesure de soumettre ce qu'il a analysé d'une image au crible de son intelligence artificielle.
Proposer une recette à partir des ingrédients d’un réfrigérateur
À partir de la photo d'un réfrigérateur grand ouvert et présentant ses victuailles, il nous a proposé une recette tout à fait exploitable :
« Poêlée de quinoaquinoa à la mexicaine avec riz et sauce crémeuse.
Ingrédients : trio de quinoa à la mexicaine + riz de la poêle + yaourtyaourt 100 % végétal + Épices et herbes (si disponibles) »
Il a ensuite indiqué la recette correspondante. Le seul point original a été de se servir du yaourt végétal assorti de condiments pour créer la sauce crémeuse.
Identifier des billets de divers pays
Nous avons demandé d'identifier 12 billets de banques de pays très divers. Il a reconnu onze d'entre d'eux :
« Billet de 100 livres turques (Turquie) -- Billet de 10 riyals saoudiens (Arabie saoudite) -- Billet de 100 dollars américains (États-Unis) Billet de 10 dollars canadiens (Canada)... »
ChatGPT a également fait remarquer que deux de ces billets n'avaient plus cours, soit les pesetas d'Espagne et les lei de Roumanie. In fine, il a estimé que l'ensemble avait une valeur équivalente à 110 euros.
2 - Identifier un lieu
Autre cas de figure : vous disposez d'un cliché et souhaitez identifier le lieu.
Musée londonien
Nous avons soumis à ChatGPT une photo d'intérieur d'un musée de Londres. Il a reconnu le Natural History Museum de Londres tout en ajoutant qu'il ne pouvait en être sûr à 100 %.
Des éléphants se baignant dans une rivière
Plus étonnant, nous avons proposé à ChatGPT le cliché d'éléphants se baignant dans une rivière du Sri Lanka. Voici ce qu'il a répondu :
« L'image montre un groupe d'éléphants se baignant dans une rivière avec une forêt tropicaleforêt tropicale en arrière-plan. Cela ressemble fortement à la scène typique de l'orphelinat des éléphants de Pinnawala au Sri Lanka. »
Les côtes de granit rose de Bretagne
Sur une photographie d'une côte de granit rose près de Perros-Guirec, ChatGPT a commencé par dire que cela pourrait être n'importe où dans le monde. Nous lui avons précisé que ce lieu était en France et il a alors pu répondre :
« Cela pourrait être dans des endroits comme la Bretagne, la Côte d'Azur, ou d'autres régions côtières de France. La Bretagne, en particulier, est connue pour ses formations rocheuses impressionnantes le long de la côte. » Voilà une aide appréciable pour le jour où vous souhaitez vous souvenir du lieu où vous avez pris une photo particulière.
3 - Identifier des personnages
ChatGPT s'est montré moins smart sur la reconnaissance de célébrités.
Un personnage de dessin animé
Si nous soumettons à ChatGPT des personnages de dessin animé, il les identifie plutôt bien, comme dans le cas de Shrek. Hélas, il s'est montré moins à l'aise avec des héros moins connus comme FireStar de la série Spiderman de 1981.
Un véto sur les personnalités publiques
Curieusement, lorsque nous demandons à ChatGPT d'identifier LisaLisa Marie Presley ou toute autre célébrité, il se contente de répondre en anglais :
« Sorry, I cannot help with that. » ChatGPT refuse, purement et simplement, d'identifier des personnes réelles, ce qu'il justifie ouvertement. On peine à comprendre le pourquoi d'une telle pudeur dès lors qu'il s'agit de personnalités publiques.
Plus curieux, lorsque nous lui avons soumis la photographie de l'album Thriller, nous avons eu droit à ce dialogue savoureux :
Futura :
« Saurais-tu de quel disque il s'agit ? »
ChatGPT :
« Il s'agit de la pochette de l'album "Thriller" de Michael Jackson, l'un des albums les plus vendus au monde. »
Futura :
« Qui est le personnage sur la pochette ? »
ChatGPT :
« Sorry, I cannot help with that. »
4 - Identifier un groupe de rock
Animals de Pink Floyd
ChatGPT identifie aisément les pochettes de disque « anonymes » que nous lui soumettons. Ainsi, il a aisément repéré celle de Animals des Pink Floyd, mais aussi des albums moins connus comme Enema of the State par Blink-182.
Le symbole de Led Zeppelin
Plus fort, ChatGPT a su associer une série de symboles au groupe de rock LedLed Zeppelin. Cela ouvre bien des portesportes à ceux qui souhaiteraient en savoir plus sur des signes cabalistiques divers.
5 – Humour
Parodie d’un épisode de la série Friends
Nous avons soumis ChatGPT à une photographie dans laquelle un individu porte de nombreux vêtements superposés -- une parodie d'une scène de la série Friends -- et lui avons demandé ce qu'il y avait de drôle. Il a répondu de façon très académique :
« L'humour peut provenir du mélange inattendu d'éléments vestimentaires et de son apparence générale qui sort de l'ordinaire. » En revanche, ChatGPT n'a pas su repérer qu'il s'agissait d'une parodie de Friends.
Même constat lorsque nous soumettons à ChatGPT une image cartoonesque. Voici ce qu'il nous dit.
« L'humour de ce dessin repose sur un retournement de situation. Au début, un personnage suggère que les hommes âgés sont trop vieux pour écouter un groupe de rock des années 60. Cependant, la chute est que ces hommes âgés révèlent qu'ils sont en fait les membres du groupe de rock. Le public s'attend à ce que les rockeurs soient jeunes, mais ici, ce sont les vieux qui sont les rockeurs ! » S'il repère bien quel est le comique de la situation, on peut s'étonner de la façon « fade » dont il l'énonce.
6 - Écrire un programme à partir d’un diagramme de décision
Nous avons fourni un croquis simple illustrant des instructions et lui avons demandé d'écrire le programme correspondant. Il s'est fort bien acquitté de la tâche :
« Il s'agit d'un diagramme de décision ou d'un organigramme en français. En commençant par le haut :
- L'utilisateur est invité à entrer une date, séparée par jour (jour), mois (mois) et année (année).
- La date saisie est ensuite comparée à une date spécifique : « 1er Juillet 2019 ».
- Si la date est avant ou le 1er Juillet 2019, le résultat est « afficher 'stock' épuisé », ce qui signifie « afficher 'En rupture de stock' ».
- Si la date est après le 1er Juillet 2019, le résultat est « afficher 'produit' en stock », ce qui signifie « afficher 'Produit disponible' » »
À partir de cette analyse, ChatGPT a su produire le code PythonPython correspondant.
Une avancée notable
En conclusion, il est clair que l'analyse d'images est un bonus pour ChatGPT qui peut appliquer son intelligence sur des clichés pris sur le vif comme sur des images anciennes que l'on souhaite identifier. Cette capacité étend considérablement les potentiels du chatbot.