au sommaire
Un test de captcha, visuel et audio, sur le site offrant le téléchargement du système Recaptcha, de Google, qui sert également à aider à la numérisation de livres scannés. © Google
Un test de Turing réussi par un ordinateur ! Il s'agit plutôt d'une version très limitée dans laquelle c'est un ordinateur, en l'occurrence le serveur d'un site Web, qui doit décider si l'auteur de la requête est bien un être humain, et non un robot logiciellogiciel cherchant à récupérer des données ou à créer un faux compte.
La méthode habituelle est de présenter un « captcha » (pour Completely Automated Public Turing tests to tell Computers and Humans Apart, soit test de Turing public complètement automatique pour distinguer les ordinateurs des Hommes), ces textes déformés qu'il faut décrypter tant bien que mal, en faisant appel à toute son astuce... humaine. Il existe également une version audio, pour faciliter le décodage quand les lettres sont trop déformées et pour ouvrir l'accès aux personnes malvoyantes. Le ou les mots sont alors prononcés sur un fond sonore bruyant.
C'est cette version audio qu'est parvenue à faire décrypter par un logiciel, baptisé Decaptcha, l'équipe du Stanford Security Laboratory. Menée par Elie Bursztein, elle avait déjà montré en 2010 comment il était de possible de truquer un site accessible par un mobilemobile pour faire réaliser toutes sortes d'opérations par un utilisateur croyant faire autre chose, une possibilité d'escroquerie que les chercheurs avaient baptisée tapjacking.
Un système qui apprend
Depuis 2009, Elie Bursztein et son équipe travaillent sur les captchas et vient de montrer ses premiers résultats. Les informaticiens expliquent que Decaptcha découpe la bande son à la recherche de sons qui pourraient être des chiffres ou des lettres et les comparent à ceux déjà entendus. Le logiciel, en effet, s'adapte au site. Les détails techniques sont publiés dans un article en ligne (The Failure of Noise-Based Non-Continuous Audio Captchas).
« Decaptcha a besoin de reconnaître 300 captchas et d'à peu près 20 minutes d'entraînement pour réussir à vaincre les systèmes les plus compliqués » expliquent les chercheurs au magazine Network World, ajoutant que le logiciel devient alors capable de décoder 10 captchas à la minute.
Les résultats seraient excellents, d'après les informaticiens. Sur le site Authorized.com, Decaptcha comprendrait les mots dans 82 % des cas. Le site d'eBay est trompé dans 82 % des essais et la proportion tombe à 49 % chez MicrosoftMicrosoft, à 45 % chez Yahoo! et à 41 % chez Digg. Le pire score est de 1,5 %, obtenu avec Recaptcha. Ce système (fourni gratuitement car il est utilisé pour aider la numérisationnumérisation d'ouvrages scannés) utilise deux mots au lieu d'un et la partie audio est elle aussi plus sophistiquée.
« Or, un robot logiciel qui réussit dans un cas sur cent permettrait à un pirate de créer suffisamment de comptes pour tromper un utilisateur ou pour faire toutes sortes de choses sur le site ciblé » explique Elie Bursztein. Les chercheurs ne donnent pas de solutions pour éviter cette possibilité de décodage par un logiciel, si ce n'est de compliquer encore les déformations visuelles ou audio des captchas, au risque d'induire des difficultés pour les humains...