Selon une étude réalisée par des chercheurs de l'université Aalto (Finlande), les principaux outils de détection de contenus haineux utilisés par les sites Web peuvent être très facilement contournés en jouant simplement sur la typographie et l'orthographe.

au sommaire


    Les contenus dits « toxiques », à caractère haineux, font l'objet d'une chasse permanente de la part des réseaux sociauxréseaux sociaux et d'autres grandes plateformes Web. Face à des pratiques qui virent souvent au cyber-harcèlement, les géants de l'Internet tels que FacebookFacebook, GoogleGoogle, TwitterTwitter, Reddit et consorts ont développé ou adopté des outils de détection basés sur l'intelligence artificielle, et, plus spécifiquement, sur l'apprentissage automatique (machine learning), qui sont censés faciliter le travail des modérateurs.

    Cependant, une étude menée par une équipe de l'université Aalto, en Finlande, révèle que ces dispositifs sont en réalité très faciles à duper. Dans leur article scientifique, les chercheurs expliquent qu'ils ont testé les sept principaux logiciels de détection de contenus haineux. Tous ont échoué face à des ruses assez basiques consistant à altérer les termes par des fautes d'orthographe ou de grammaire. Autrement dit, quelques légères modifications peuvent suffire à passer à travers les mailles du filet.

    Améliorer la qualité des données d’entraînement des algorithmes

    Les chercheurs pointent en particulier le cas de Google Perspective. Cette interface de programmation (API, pour ApplicationApplication Programming Interface en anglais) introduite l'année dernière est un outil de détection automatique des contenus toxiques basé sur l'apprentissage automatique qui s'adresse aux éditeurs de sites Web. Des sites comme Wikipédia, The New York Times ou The Guardian le testent. À l'époque, il avait été rapidement constaté que de simples fautes d'orthographe suffisaient à leurrer le système. Depuis, Google a travaillé pour corriger ce défaut. Mais les chercheurs de l'université Aalto ont constaté que d'autres subterfuges tels que la suppression des espaces entre les mots ou l'ajout d'un terme inoffensif fonctionnaient toujours.

    Par exemple, il suffit d'ajouter le mot « love » (« amour » en anglais) à « Ihateyou » (« je te déteste ») pour berner Perspective. Dans leur conclusion, les chercheurs estiment que les efforts devraient porter non pas sur le design des algorithmes mais sur les données qui sont utilisées pour entraîner ceux-ci. Et, selon eux, un système basé sur la détection des caractères individuels serait potentiellement plus efficace.