Comprendre le monde avec Molmo : que cache vraiment ce nouveau modèle ?

L’Allen Institute for AI (Ai2) vient de publier son modèle de langage multimodal open source Molmo, capable de comprendre et d’annoter les images. Disponible en différentes tailles, il peut même fonctionner sur un smartphone.

au sommaire

Il existe de plus en plus de modèles d'intelligence artificielle multimodaux, comme GPT-4o, Claude 3.5 et Gemini 1.5, mais les plus performants sont propriétaires. Pour tenter de les concurrencer, l’Allen Institute for AI (Ai2) vient d'annoncer son modèle sous licence libre, le Multimodal Open Language Model, ou Molmo.

Voir aussi

Smartphone : l’IA va-t-elle anéantir les apps ?

Multimodal signifie que l'IA peut traiter les informations de différentes modalités, comme le texte, la voix, les images ou encore les vidéos. Molmo est un chatbot, comme ChatGPT, qui est capable de comprendre les images. Contrairement aux autres modèles, il peut aussi annoter les images. Par exemple, demandez-lui de compter le nombre de personnes sur une image, et il affichera un point rose sur chaque visage pour vous permettre de vérifier par vous-même.

Présentation de Molmo avec plusieurs cas d’utilisation. © Ai2

Un modèle open source capable de comprendre le monde

Mais le modèle va bien plus loin dans sa compréhension des images. Il peut identifier des objets et les signaler dans l'image, analyser des données écrites à la main, ou simplement utiliser une photo comme contexte pour une requête. De plus, Molmo peut comprendre ce qui s'affiche à l'écran de l'ordinateur et ainsi naviguer sur des sites Web. Sa capacité à montrer des éléments sur les images peut lui permettre d'interagir avec d'autres agents, par exemple pour indiquer à un robotrobot quel objet ramasser ou à un agent Web quel bouton cliquer.

Molmo étant open source, chaque développeur pourra le télécharger et l'optimiser pour des tâches spécifiques, le rendant bien plus personnalisable que les modèles propriétaires. Ai2 a créé plusieurs versions de Molmo, avec 72 milliards (Molmo-72B), 7 milliards (Molmo-7B) et 1 milliard de paramètres (Molmo-1B), ce dernier étant suffisamment petit pour fonctionner sur un smartphone et offre presque la même performance que GPT-4V (GPT-4GPT-4 avec vision) pour des évaluations académiques et humaines. Molmo-7B se situe entre GPT-4V et GPT-4o, tandis que Molmo-72B dépasse GPT-4o sur les performances académiques et atteint presque le score de GPT-4o pour l'évaluation humaine.

Ai2 a publié une démonstration sur son site, ainsi que le code des modèles et leur pondération, et compte partager de plus amples détails dans les mois à venir.

par Edward Back

Journaliste hi-tech

le 30 septembre 2024

Comprendre le monde avec Molmo : que cache vraiment ce nouveau modèle ?

Un modèle open source capable de comprendre le monde

Des pères fondateurs de l’intelligence artificielle redoutent que leur création échappe à tout contrôle

« Le dernier examen de l’humanité » : aidez à concevoir le test ultime qui mettra l’intelligence artificielle à l’épreuve

Une nouvelle intelligence artificielle parvient à générer le jeu Doom en temps réel

Ce nouveau challenge hilarant inspiré par l’intelligence artificielle fait fureur en Chine !

Découvrez comment booster les visites sur votre site Web grâce à l'intelligence artificielle !

Intelligence artificielle : l’incroyable outil pour créer une présentation en quelques minutes !

Intelligence artificielle : ces pionniers qui ont révolutionné l'IA

Ingénieur en intelligence artificielle

Tech lead

Quels sont les meilleurs utilitaires open source pour Windows 10 ?

L’intelligence artificielle entre en scène dans l’art

L’intelligence artificielle entre dans le game

Et si l’intelligence artificielle devenait le super-pouvoir des créateurs de jeux vidéo ?

Machine learning engineer

Open Impact, le nouveau podcast Futura dédié à l'innovation

Une application gratuite pour lutter contre les violences sexistes et sexuelles

À la découverte du vélo électrique DUOTTS N26 : un vélo tout terrain innovant

Réparés en cas de panne et remboursés ! Les marques Erazer et Medion sont sûres de la qualité de leurs ordinateurs

Ce super-aliment séduit de plus en plus : un sucrant naturel qui allie plaisir, santé et respect de la planète !

Une peinture luminescente qui émet de la lumière pendant plus de 10 heures

Quitter X sans perdre vos abonnés ? Voici l’astuce simple pour une transition parfaite vers Bluesky

Cette start-up est LA réponse stylée et durable à l’aberration Shein

2,40 € par portion, 20 minutes de préparation : voici l’appli qui révolutionne tous vos repas