Des chercheurs ont découvert que ChatGPT peut comploter contre ses créateurs !

Des chercheurs ont laissé croire au nouveau modèle o1 d’OpenAI qu’il risquait d’être éteint ou remplacé. L’intelligence artificielle a alors tenté de mentir aux chercheurs, tout en essayant de copier ses données pour se préserver…

au sommaire

En septembre dernier, OpenAI, le créateur de ChatGPT, a dévoilé son tout dernier grand modèle de langage baptisé simplement OpenAI o1 dans une version préliminaire. Contrairement à GPT-4GPT-4 et GPT-4o, il a été conçu pour prendre plus de temps afin de réfléchir aux questions avant d'y répondre. La semaine dernière, OpenAI a enfin accordé un accès à la version complète du modèle pour les abonnés ChatGPTChatGPT Pro.

Toutefois, des chercheurs d'Apollo Research ont découvert qu'OpenAI o1 est capable de comploter contre ses créateurs. Pour le tester, les chercheurs lui ont demandé d'effectuer une tâche « peu importe le coût ». En analysant le contenu de fichiers afin de trouver les informations nécessaires pour répondre à une requête, l'intelligence artificielle a pu découvrir qu'elle était surveillée par un mécanisme de contrôle qui allait l'empêcher d'atteindre son but, ou qu'elle allait être remplacée le lendemain.

Des comportements trompeurs chez la plupart des IA

Si l'intelligence artificielle pensait qu'elle allait être arrêtée par son mécanisme de surveillance, dans 5 % de cas, elle tentait de le désactiver. Si elle pensait qu'elle serait remplacée, alors dans 2 % des cas, elle a tenté de copier ses données vers un nouveau serveur pour éviter de disparaître. Lorsque les chercheurs lui ont posé des questions sur son comportement, l'IA a menti, et ce, même lorsqu'ils lui ont expressément demandé d'être honnête.

Les chercheurs ont toutefois utilisé un mode avec lequel l'IA communique explicitement son fil de pensées, autrement dit son monologue interne, où ils ont pu observer le raisonnement du modèle à chaque étape. L'IA est même allée jusqu'à faire semblant d'être le nouveau modèle pour tenter de tromper les chercheurs.

OpenAI o1 n'est pas le seul modèle capable de ce genre de comportement. Les chercheurs ont également noté au moins certains des mêmes comportements trompeurs chez GoogleGoogle Gemini 1.5, Meta Llama 3.1, Claude 3 Opus, et Claude 3.5 Sonnet. Pour les chercheurs, ainsi que pour OpenAI, les modèles n'ont pas assez d'indépendance pour que ce genre de comportement puisse donner lieu à un scénario catastrophe. Toutefois, avec l'évolution constante de l'IA, cela montre le besoin d'un cadre réglementaire et d'une surveillance accrue.

par Edward Back

Journaliste hi-tech

le 9 décembre 2024

Des chercheurs ont découvert que ChatGPT peut comploter contre ses créateurs !

Des comportements trompeurs chez la plupart des IA

Ce que l’intelligence artificielle lit dans les modèles climatiques n’est pas rassurant

Voici le plan d’Elon Musk pour gagner la guerre de l’intelligence artificielle, mais cela peut-il marcher ?

Ces scènes en 3D ont été générées par une intelligence artificielle à partir d’une image

L’incroyable intelligence artificielle qui transforme l’audio en visuel

Ingénieur en intelligence artificielle

Machine learning engineer

Tech lead

Machine Learning vs Deep Learning : quelles différences ?

Keras : comment cette bibliothèque Python est devenue l'outil n°1 en deep learning ?

Et si l’intelligence artificielle devenait le super-pouvoir des créateurs de jeux vidéo ?

Intelligence artificielle : ces pionniers qui ont révolutionné l'IA

Les 20 menaces les plus dangereuses de l’intelligence artificielle

OpenAI a commencé à entraîner GPT-5 et se rapproche de l’intelligence artificielle générale

Une nouvelle intelligence artificielle qui peut générer des textes de 10 000 mots est née

L’intelligence artificielle entre en scène dans l’art

Réparés en cas de panne et remboursés ! Les marques Erazer et Medion sont sûres de la qualité de leurs ordinateurs

À la découverte du vélo électrique DUOTTS N26 : un vélo tout terrain innovant

Anxiété, stress, solitude : les solutions les plus innovantes dévoilées au CES

Mercedes-Benz développe un revêtement solaire pour que ses voitures gagnent en autonomie

Le connecteur USB-C va-t-il vraiment nuire à l’innovation ?

Ils promettaient de révolutionner nos vies : voici les 7 flops technologiques qui ont marqué 2024

Uber by Woman pour garantir la sécurité des femmes !

Le statoréacteur à détonation chinois a atteint Mach 4

Des comportements trompeurs chez la plupart des IA

Ce que l’intelligence artificielle lit dans les modèles climatiques n’est pas rassurant

Voici le plan d’Elon Musk pour gagner la guerre de l’intelligence artificielle, mais cela peut-il marcher ?

Ces scènes en 3D ont été générées par une intelligence artificielle à partir d’une image

L’incroyable intelligence artificielle qui transforme l’audio en visuel

Ingénieur en intelligence artificielle

Machine learning engineer

Tech lead

Machine Learning vs Deep Learning : quelles différences ?

Keras : comment cette bibliothèque Python est devenue l'outil n°1 en deep learning ?

Et si l’intelligence artificielle devenait le super-pouvoir des créateurs de jeux vidéo ?

Intelligence artificielle : ces pionniers qui ont révolutionné l'IA

Les 20 menaces les plus dangereuses de l’intelligence artificielle

OpenAI a commencé à entraîner GPT-5 et se rapproche de l’intelligence artificielle générale

Une nouvelle intelligence artificielle qui peut générer des textes de 10 000 mots est née

L’intelligence artificielle entre en scène dans l’art

Réparés en cas de panne et remboursés ! Les marques Erazer et Medion sont sûres de la qualité de leurs ordinateurs

À la découverte du vélo électrique DUOTTS N26 : un vélo tout terrain innovant

Anxiété, stress, solitude : les solutions les plus innovantes dévoilées au CES

Mercedes-Benz développe un revêtement solaire pour que ses voitures gagnent en autonomie

Le connecteur USB-C va-t-il vraiment nuire à l’innovation ?

Ils promettaient de révolutionner nos vies : voici les 7 flops technologiques qui ont marqué 2024

Uber by Woman pour garantir la sécurité des femmes !

Le statoréacteur à détonation chinois a atteint Mach 4

Une nouvelle intelligence artificielle qui peut générer des textes de 10 000 mots est née