au sommaire
En intelligence artificielle, le nerfnerf de la guerre, ce sont les données, dont il faut disposer en massemasse pour pouvoir entraîner les algorithmes d'apprentissage. En prime, il faut souvent que celles-ci soient structurées, c'est-à-dire identifiées par rapport à ce qu'elles représentent et, éventuellement, par rapport aux objets qu'elles contiennent. Ce travail de fourmifourmi est la plupart du temps effectué par des humains. Or, lorsqu'il s'agit de bases de données de plusieurs millions d'images, la tâche devient colossale. Inutile de dire qu'elle est inenvisageable si l'on parle de milliards d'images...
Facebook a trouvé une alternative qui lui a permis d'entraîner son algorithme d'apprentissage profondapprentissage profond pour la reconnaissance d'images en puisant dans une base de données de 3,5 milliards de photos. Pour cela, le réseau social s'est tout simplement servi des contenus publics publiés sur InstagramInstagram, dont il est propriétaire depuis 2012.
Vers de l'apprentissage automatique non supervisé
Le gros avantage de ces images est qu'elles sont déjà identifiées et classables grâce aux hashtags que les utilisateurs leur attribuent au moment de la publication. Pour prouver la viabilité de leur idée, les chercheurs de Facebook ont entraîné un algorithme de reconnaissance d'images avec un milliard de photos annotées par 1.500 hashtags. Résultat : avec 85,4 % de réussite au banc d'essai ImageNet (référence en la matièrematière), l'IA (intelligence artificielle) a établi un nouveau record.
Les implications de cet « apprentissage faiblement supervisé » sont importantes, pour la reconnaissance d'images en particulier et pour l'intelligence artificielle en général. « À mesure que les jeux de données d'entraînement grandissent, le besoin d'un apprentissage faiblement supervisé et, sur le long terme, non supervisé, deviendra de plus en plus essentiel », explique FacebookFacebook.