Il suffirait d’un très faible nombre de changements dans les bases de données utilisées pour entraîner les intelligences artificielles afin de les induire en erreur. Des chercheurs ont découvert deux méthodes pour y parvenir avec la plupart des grandes bases de données utilisées actuellement.
au sommaire
L'arrivée des chatbots comme ChatGPTChatGPT soulève des craintes de voir des individus mal intentionnés s'en servir pour créer des arnaques, comme le phishing, plus nombreuses et plus difficiles à déceler. Toutefois, ces intelligences artificielles ont aussi leurs propres faiblesses. Des chercheurs de GoogleGoogle, de l'École polytechnique fédérale de Zurich, Nvidia, et Robust Intelligence ont prépublié un article sur arXiv qui détaille deux attaques possibles contre les IA.
Les deux attaques consistent à modifier, ou « empoisonner » les informations utilisées pour leur entraînement. L’IA n'étant pas capable de repérer les fausses informationsfausses informations, il suffirait de modifier une toute petite partie des données pour qu'elle produise des résultats erronés. Une récente étude chiffre à 0,001 % la quantité de fausses informations nécessaires pour empoisonner le modèle entier. Selon l'utilisation de l’IA, les conséquences pourraient s'avérer dangereuses.
L’attaque de type « split-view poisoning »
La première attaque s'appelle « split-view poisoning », que l'on pourrait traduire par empoisonnement par vue séparée. Les grandes bases de données utilisées contiennent de très nombreuses références à des images, avec une description. Toutefois, ce ne sont pas les images elles-mêmes qui sont incluses, mais des liens pour les télécharger depuis le Web.
Le problème est que très souvent les noms de domaine des sites qui les hébergent ont expiré. On obtient ainsi 0,29 % de noms de domaines expirés pour le modèle LAION-2B-en qui date de 2022, un chiffre qui monte jusqu'à 6,48 % pour le modèle PubFig de 2010, encore utilisé aujourd'hui. L'attaque consiste à racheter certains de ces noms de domaine pour mettre d'autres images à la place. Ainsi, l'IA sera induite en erreur par les nouvelles images. Les chercheurs ont indiqué qu'il est possible d'empoisonner 0,01 % des bases de données LAION-400M ou COYO-700M pour seulement 60 dollars.
Le « frontrunning poisoning »
La seconde attaque s'appelle « frontrunning poisoning », que l'on pourrait traduire par « empoisonnement par anticipation ». Contrairement à la précédente, elle vise toutes les données, y compris textuelles, mais doit être effectuée avant l'entraînement de l'IA. Les bases de données sont constituées en effectuant des clichés des sources sur le Web à un instant TT. Si l'attaquant peut prédire quand aura lieu ce cliché, il peut modifier les données juste avant. Par exemple, il pourrait modifier des pages sur Wikipédia juste avant leur téléchargement, de manière que les modérateurs n'aient pas le temps de corriger les fausses informations. En se basant sur le temps de réaction moyen pour annuler des modifications erronées, les chercheurs ont estimé qu'il serait possible d'empoisonner jusqu'à 6,5 % des données de Wikipédia, en l'absence de toute autre mesure défensive (comme le blocage de l'adresse IPadresse IP suite à un grand nombre de modifications).
Les chercheurs ont indiqué plusieurs pistes pour se défendre contre ce genre d'attaque. Pour le split-view poisoning, il n'est souvent pas possible d'enregistrer les contenus dans la base de données à cause des droits d'auteur. À la place, il suffirait d'enregistrer un hachage des fichiers qui permettrait de repérer tout changement effectué ultérieurement. Pour le frontrunning poisoning, les chercheurs proposent soit de rendre aléatoire l'ordre de téléchargement des pages afin de rendre plus difficile l'empoisonnement, ou tout simplement de geler les modifications sur le site le temps d'en créer une copie.