Le modèle GPT-4 de ChatGPT est censé pouvoir analyser une image. © D. Ichbiah, Stable Diffusion

Il sera bientôt possible à ChatGPT de voir les images et de discuter vocalement

Intelligence artificielle

ChatGPT

actualité

• 3 Min

[EN VIDÉO] L'Intelligence Artificielle dans l'espace Les prochains grands projets astronomiques généreront des quantités énormes de données que l'humain aura du...

Le chatbot d'OpenAI évolue et pourra d'ici quinze jours discuter autour d'une image ou bien vocalement. Une nouvelle petite révolution !

au sommaire

Le fameux chatbot, ChatGPT évolue vers une nouvelle version qui permettra de discuter de façon orale avec l'agent conversationnelagent conversationnel. Dans un premier temps, ChatGPTChatGPT, va convertir en script ce qui est demandé, puis sera capable d'énoncer sa réponse en audio. On aura la possibilité de choisir parmi cinq voix qui auraient selon OpenAI un ton très proche de celui d'un humain. Mieux encore, il sera possible de téléverser une image dans le chatbot et de poser à ChatGPT des questions autour de cette image.

L’upload d’images en questions

On imagine déjà qu'OpenAI va devoir intégrer des filtres musclés pour éviter les dérapages. À titre d'exemple, la firme a montré comment cette option peut être employée. L'utilisateur envoie une photo de son vélo et demande comment abaisser la selle. Le robot donne les instructions avec une photo ciblant le mécanisme concerné. Ces nouveautés devraient être déployées pour les abonnés payants dans les quinze prochains jours. Elles pourraient être disponibles pour tous un peu plus tard.

Le nouveau ChatGPT a encore du mal à voir et à interpréter les images

Le nouveau ChatGPT était censé analyser les images et en réalité, nous n'avons rien vu venir. Encore en test, MiniGPT-4 dévoile les prouesses attendues de cette fonction. Et ça n'est pas encore cela...

Article de Daniel IchbiahDaniel Ichbiah publié le 21 avril 2023

Le 14 mars 2023, certains des abonnés à ChatGPT ont reçu un email les invitant à suivre l'annonce de la nouvelle formule, basée sur le modèle GPT-4. Greg Brockman, l'un des fondateurs de OpenAI, a alors présenté dans le détail les atouts de cette nouvelle version.

L'une des fonctions mises en avant a été la suivante : grâce à GPT-4, le ChatGPT nouvelle formule va être « multimodal ». En clair, il n'acceptera plus seulement du texte en entrée mais aussi des images. Et de montrer un exemple frappant : on montre à ChatGPT l'image d'un réfrigérateur ouvert et il est en mesure de proposer une recette de cuisine sur la base de ce qu'il a analysé.

Lors de la conférence de présentation de GPT-4, Greg Brockman, l'un des fondateurs de OpenAI a mis en avant la capacité de ce nouveau modèle d'analyser une image. Pourtant, dans la réalité, cette fonction a tardé à apparaître. © OpenAI

Une version payante de ChatGPT

Pour accéder aux capacités de ce nouveau ChatGPT, il était essentiel de prendre un abonnement payant - la formule ChatGPT PlusChatGPT Plus - et de par le monde, de nombreux fans de cet outil ont sauté le pas. Pourtant, lorsque nous avons tenté de faire analyser des images, nous sommes ressortis bredouille : un message est apparu pour nous préciser que GPT-4 n'était pas encore en mesure de le faire.

ChatGPT avec pour modèle GPT-4 n'a cessé de nous dire qu'il n'était pas en mesure d'analyser les images. © OpenAI

Les promesses de GPT-4 en matière d'analyse d'image

Et puis, OpenAI a finalement dévoilé une démo de cette fonction d'analyse d'image, tant attendue. Elle est accessible à cette adresse : https://minigpt-4.github.io/

L'outil auquel nous avons accès s'intitule MiniGPT-4. Dans la vidéo de présentation, OpenAI met en avant de nombreuses capacités :

il analyse la photographiephotographie d'une feuille et explique alors comment la soigner ;
il peut décrire une photographie avec un cactus sur un lac gelé ;
il propose des slogans relatifs à une photo de mugs ;
On lui montre une photo de homards grillés et il donne la recette correspondante, etc.

Dans la vidéo de présentation de MiniGPT-4, la photographie d'une feuille est lue par cette application et en réponse, il indique comment soigner ladite feuille. © OpenAI

Une démo ultra-lente et imparfaite

Nous avons voulu tester cet outil et autant vous prévenir : il faut une dose énorme de patience. Étant donné que de très nombreux utilisateurs sont en train de tester cet outil, chaque requête est placée sur une file d'attente. Comptez plusieurs minutes pour charger une photographie, cinq bonnes minutes pour avoir la réponse à chaque requête. Et autant le dire, cette fonction d'analyse des images est encore très perfectible et loin d'atteindre les prouesses vantées par OpenAI. Il reste que, si vous n'êtes pas trop pressé, vous pouvez proposer des images à cet outil et lui poser des questions à leur sujet. Nous avons ainsi un avant-goût de ce que devrait proposer ChatGPT une fois que cette nouvelle formule aura bel et bien été mise au point.

Nous avons demandé à MiniGPT-4 de dire ce qu'il trouvait drôle dans cette photographie. Il n'a pas vraiment su identifier les panthères roses. © OpenAI