Pour compléter ses filtres automatiques dans la chasse aux pourriels, Google fait appel à TensorFlow, son outil d’apprentissage automatique publié sous licence libre. Objectif : profiter de l'intelligence artificielle pour débusquer les 0,1 % de spams qui passent encore entre les mailles du filet.


au sommaire


    Dans un post sur le blog Produits de Google, Neil Kumaran, chef de produit de la technologie de lutte contre les abus chez GoogleGoogle a indiqué que Google utilise désormais une intelligence artificielle pour améliorer la précision des filtres à indésirables sur la fameuse messageriemessagerie Gmail. Ce service est utilisé tous les mois par un milliard et demi de personnes de par le monde.

    Selon lui, les modèles d'apprentissage automatique (machine learning) sont déjà très efficaces, et bloquent plus de 99,9 % des messages indésirables, du hameçonnagehameçonnage et des logiciels malveillantslogiciels malveillants. Le problème est le petit pourcentage restant, qui représente tout de même des dizaines, voire des centaines de millions de messages pour une messagerie de la taille de GmailGmail.

    TensorFlow, une intelligence artificielle sous licence libre

    La firme a donc décidé de s'appuyer sur TensorFlow, son outil d'apprentissage automatique publié sous licence libre. Cette intelligence artificielle vient s'ajouter aux outils déjà en place, et a permis à Google de bloquer 100 millions de messages indésirables supplémentaires quotidiennement. « À l'échelle où nous fonctionnons, trouver 100 millions supplémentaires n'est pas chose aisée », a déclaré Neil Kumaran. « Détecter la dernière partie du spam incrémentiel est de plus en plus difficile, mais TensorFlow nous a beaucoup aidés dans ce combat. »

    Concrètement, ce nouveau filtre basé sur l'intelligence artificielle parvient à bloquer de nombreux messages impossibles à détecter avec des méthodes classiques. Il parvient à décoder les e-mails basés sur des images, des courriels avec un contenu intégré caché, ainsi que des messages de nouveaux noms de domaines, qui tentent de masquer un faible volumevolume de messages indésirables au sein d'échanges plus légitimes.

    Le TensorBoard permet à la fois de surveiller de manière exhaustive les modèles mis en place mais aussi d'évaluer rapidement de nouveaux modèles afin de déterminer leur utilité. © TensorFlow 
    Le TensorBoard permet à la fois de surveiller de manière exhaustive les modèles mis en place mais aussi d'évaluer rapidement de nouveaux modèles afin de déterminer leur utilité. © TensorFlow 

    Des filtres réactifs et personnalisés

    S'attaquer à la dernière fraction de pourcentage sans créer de faux-positif est un exercice extrêmement périlleux, d'où le recours encore à l'intelligence artificielle. Selon Neil Kumaran, « TensorFlow nous aide à attraper les spammeurs qui constituent moins de 0,1 %, sans bloquer accidentellement des messages qui sont importants pour les utilisateurs ». Selon lui, l'outil permet d'expérimenter plusieurs modèles simultanément, réduisant le nombre d'ingénieurs nécessaires. De plus, en tant que logiciel libre, de nombreux chercheurs contribuent à TensorFlow partout dans le monde, lui permettant d'intégrer constamment de nouvelles idées.

    Contrairement aux règles créées par les humains, qui se basent en général sur quelques caractéristiques communes des messages, l'intelligence artificielle peut analyser les messages dans leur globalité, qui contiennent souvent des milliers de traits caractéristiques, et repérer des points communs. Elle peut ainsi laisser passer des messages légitimes qui auraient quelques similitudes avec les messages indésirables, et s'adapter très rapidement aux spams qui évoluent sans cesse. De plus, elle permet de créer des règles personnalisées pour chaque utilisateur. Ce que certains considéreront comme indésirable sera important pour d'autres, comme des newsletters ou notifications envoyées par des applicationsapplications.