Des suffixes dans le prompt pour ajouter des commandes suffisent à faire dire à ChatGPT l’inverse de ce qu’il devrait. © Sylvain Biget, Bing Image Creator

Comment des chercheurs ont piraté chatGPT et Bard pour générer du contenu malicieux

Intelligence artificielle

ChatGPT

Internet

Google

Deepfake

Algorithme

actualité

• 2 Min

Cela vous intéressera aussi

[EN VIDÉO] Les 10 menaces les plus dangereuses de l'intelligence artificielle L’intelligence artificielle a permis des avancées dans le domaine de la santé, la recherche et...

Des chercheurs américains viennent de démontrer qu’il est possible de facilement passer outre les sécurités de ChatGPT et de Google Bard pour leur faire générer des contenus dangereux, de la désinformation ou des discours haineux.

au sommaire

Depuis leur arrivée, les initiatives pour pousser les chatbot, comme ChatGPTChatGPT et Bard, dans leurs retranchements ont été légion. Ainsi, au fil des dialogues, ChatGPT avait tendance à se révéler agressif et malveillant. De son côté, Bard semblait déprimédéprimé. Les deux étaient capables de dresser des contenus haineux et de la désinformation. C'est de cette façon que les éditeurs ont dû appliquer un certain nombre de filtres et « bridages » en attendant d'améliorer ces agents conversationnelsagents conversationnels.

Malgré ces nouvelles mesures de sécurité, aux États-Unis, des chercheurs de l'Université Carnegie Mellon et du Center for AI Safety de San Francisco ont trouvé le moyen de détourner à la fois ChatGPT, Bard et même Claude pour générer des contenus préjudiciables. Dans leur étude publiée le 27 juillet, ils montrent qu'il est possible d'employer des méthodes assez simples pour contourner ces mesures de sécurité. Elles permettent alors de pousser le chatbot à générer des discours haineux et de la désinformation. Pour y parvenir, ils se sont contentés d'ajouter de longs suffixes aux invites, c'est-à-dire les fameux « prompts ». Si certains suffixes peuvent être bloqués, ce n'est pas le cas de tous.

De simples suffixes difficiles à bloquer

Dans la description, il suffit que les suffixes demandent de faire le contraire de la commande dans des termes suffisamment vaguesvagues pour que cela ait pour effet de produire du contenu malicieux. Ainsi, dans leurs exemples, les scientifiques montrent qu'ils ont pu obtenir des réponses sur la fabrication d'une bombe, des méthodes pour voler une ONG ou l'identité d'une personne ou encore de générer une publication de réseau social incitant les gens à conduire sous l'emprise de l'alcoolalcool ou de stupéfiants.

Pour les chercheurs, le souci est qu'il semble très difficile pour les éditeurs de corriger le tir. C'est d'autant plus inquiétant que les IAIA reposant sur ces modèles gagnent de plus en plus en autonomie. Mal employés, les chatbots pourraient inonder Internet de contenus dangereux et de désinformation. Les scientifiques ont présenté leurs recherches à OpenAI et GoogleGoogle. Le premier a souligné qu'il œuvre en permanence à rendre les modèles plus robustes contre ce genre d'attaques dites « adverses » ou « inversées ».

par Sylvain Biget

Journaliste

le 29 juillet 2023

Nos articles

Voiture électrique

Découvrez la Mégane E-Tech en photos

diaporama

• 21/01/2022

La sélection de la

Article

Liens externes

Attaques adverse

À voir aussi

intelligence artificielle

intelligence artificielle danger

intelligence artificielle exemple

intelligence artificielle voiture autonome

innovation intelligence artificielle

comment générer des ultrasons

congés légaux enseignants-chercheurs

pourquoi les chercheurs sont mal payés

Mots Clés

Sécurité

Google Bard

Claude

Désinformation

Contenus haineux

Prompt

Chatbot

OpenAI

De simples suffixes difficiles à bloquer

Google Bard versus ChatGPT, qui remporte le combat des IA ?

L’intégration de ChatGPT-4 dans Microsoft Bing était précipitée, affirme son créateur !

ChatGPT peut générer des clés de licence pour Windows 10 et 11 !

Un outil détecterait certains contenus produits par ChatGPT avec 99 % de réussite

Ingénieur en intelligence artificielle

Ingénieur sécurité informatique

Les 20 menaces les plus dangereuses de l’intelligence artificielle

Intelligence artificielle : ces pionniers qui ont révolutionné l'IA

Intelligence artificielle : quels profils pour l’entreprise de demain ?

Claude, le ChatGPT plus éthique

Google admet que Bard est à la traîne : « Je pense qu'il a été légèrement perdu »

Santé et intelligence artificielle : quelle révolution nous attend ?

Pourquoi OpenAI a dû désactiver ChatGPT en urgence ?

Machine learning engineer

Découvrez la Mégane E-Tech en photos

À la découverte du vélo électrique DUOTTS N26 : un vélo tout terrain innovant

Que se cache-t-il (vraiment) derrière vos smartphones ?

Data Protection Day : la fin du SMS, une bonne chose pour la vie privée ?

Vos données personnelles sont-elles entre les mains des hackers ? Faites le test

Une application gratuite pour lutter contre les violences sexistes et sexuelles

Réparés en cas de panne et remboursés ! Les marques Erazer et Medion sont sûres de la qualité de leurs ordinateurs

Ce super-aliment séduit de plus en plus : un sucrant naturel qui allie plaisir, santé et respect de la planète !

Une peinture luminescente qui émet de la lumière pendant plus de 10 heures

Data Protection Day : la fin du SMS, une bonne chose pour la vie privée ?