Des chercheurs ont laissé croire au nouveau modèle o1 d’OpenAI qu’il risquait d’être éteint ou remplacé. L’intelligence artificielle a alors tenté de mentir aux chercheurs, tout en essayant de copier ses données pour se préserver…
au sommaire
En septembre dernier, OpenAI, le créateur de ChatGPT, a dévoilé son tout dernier grand modèle de langage baptisé simplement OpenAI o1 dans une version préliminaire. Contrairement à GPT-4GPT-4 et GPT-4o, il a été conçu pour prendre plus de temps afin de réfléchir aux questions avant d'y répondre. La semaine dernière, OpenAI a enfin accordé un accès à la version complète du modèle pour les abonnés ChatGPTChatGPT Pro.
Toutefois, des chercheurs d'Apollo Research ont découvert qu'OpenAI o1 est capable de comploter contre ses créateurs. Pour le tester, les chercheurs lui ont demandé d'effectuer une tâche « peu importe le coût ». En analysant le contenu de fichiers afin de trouver les informations nécessaires pour répondre à une requête, l'intelligence artificielle a pu découvrir qu'elle était surveillée par un mécanisme de contrôle qui allait l'empêcher d'atteindre son but, ou qu'elle allait être remplacée le lendemain.
Des comportements trompeurs chez la plupart des IA
Si l'intelligence artificielle pensait qu'elle allait être arrêtée par son mécanisme de surveillance, dans 5 % de cas, elle tentait de le désactiver. Si elle pensait qu'elle serait remplacée, alors dans 2 % des cas, elle a tenté de copier ses données vers un nouveau serveur pour éviter de disparaître. Lorsque les chercheurs lui ont posé des questions sur son comportement, l'IA a menti, et ce, même lorsqu'ils lui ont expressément demandé d'être honnête.
Les chercheurs ont toutefois utilisé un mode avec lequel l'IA communique explicitement son fil de pensées, autrement dit son monologue interne, où ils ont pu observer le raisonnement du modèle à chaque étape. L'IA est même allée jusqu'à faire semblant d'être le nouveau modèle pour tenter de tromper les chercheurs.
OpenAI o1 n'est pas le seul modèle capable de ce genre de comportement. Les chercheurs ont également noté au moins certains des mêmes comportements trompeurs chez GoogleGoogle Gemini 1.5, Meta Llama 3.1, Claude 3 Opus, et Claude 3.5 Sonnet. Pour les chercheurs, ainsi que pour OpenAI, les modèles n'ont pas assez d'indépendance pour que ce genre de comportement puisse donner lieu à un scénario catastrophe. Toutefois, avec l'évolution constante de l'IA, cela montre le besoin d'un cadre réglementaire et d'une surveillance accrue.