L’Allen Institute for AI (Ai2) vient de publier son modèle de langage multimodal open source Molmo, capable de comprendre et d’annoter les images. Disponible en différentes tailles, il peut même fonctionner sur un smartphone.


au sommaire


    Il existe de plus en plus de modèles d'intelligence artificielle multimodaux, comme GPT-4o, Claude 3.5 et Gemini 1.5, mais les plus performants sont propriétaires. Pour tenter de les concurrencer, l’Allen Institute for AI (Ai2) vient d'annoncer son modèle sous licence libre, le Multimodal Open Language Model, ou Molmo.

    Multimodal signifie que l'IA peut traiter les informations de différentes modalités, comme le texte, la voix, les images ou encore les vidéos. Molmo est un chatbot, comme ChatGPT, qui est capable de comprendre les images. Contrairement aux autres modèles, il peut aussi annoter les images. Par exemple, demandez-lui de compter le nombre de personnes sur une image, et il affichera un point rose sur chaque visage pour vous permettre de vérifier par vous-même.

    Présentation de Molmo avec plusieurs cas d’utilisation. © Ai2

    Un modèle open source capable de comprendre le monde

    Mais le modèle va bien plus loin dans sa compréhension des images. Il peut identifier des objets et les signaler dans l'image, analyser des données écrites à la main, ou simplement utiliser une photo comme contexte pour une requête. De plus, Molmo peut comprendre ce qui s'affiche à l'écran de l'ordinateur et ainsi naviguer sur des sites Web. Sa capacité à montrer des éléments sur les images peut lui permettre d'interagir avec d'autres agents, par exemple pour indiquer à un robotrobot quel objet ramasser ou à un agent Web quel bouton cliquer.

    Molmo étant open source, chaque développeur pourra le télécharger et l'optimiser pour des tâches spécifiques, le rendant bien plus personnalisable que les modèles propriétaires. Ai2 a créé plusieurs versions de Molmo, avec 72 milliards (Molmo-72B), 7 milliards (Molmo-7B) et 1 milliard de paramètres (Molmo-1B), ce dernier étant suffisamment petit pour fonctionner sur un smartphone et offre presque la même performance que GPT-4V (GPT-4GPT-4 avec vision) pour des évaluations académiques et humaines. Molmo-7B se situe entre GPT-4V et GPT-4o, tandis que Molmo-72B dépasse GPT-4o sur les performances académiques et atteint presque le score de GPT-4o pour l'évaluation humaine.

    Ai2 a publié une démonstration sur son site, ainsi que le code des modèles et leur pondération, et compte partager de plus amples détails dans les mois à venir.