Meta fait débarquer son modèle Llama sur les smartphones et c'est redoutable ! L’IA reste puissante, sans pour autant ponctionner la mémoire vive et monopoliser le processeur. Comment Meta est parvenu à cette prouesse qui laisse clairement Apple et Google sur le carreau ? Explications.


au sommaire


    Faire fonctionner directement sur des smartphones peu puissants une IAIA, c'est le rêve des sociétés spécialisées dans leur développement. Et ce rêve, Meta annonce l'avoir réalisé en faisant tourner jusqu'à quatre fois plus vite ses modèles Llama 3.2 1B et 3B sur un téléphone. Mieux encore, les modèles utilisent moins de la moitié de la mémoire que les versions précédentes.

    Comment Meta est-il parvenu à ce résultat ? En utilisant une technique de compression reposant sur la quantification. Elle se base sur la simplification des calculs mathématiques qui alimentent les modèles d'IA. C'est en quelque sorte le principe qu'avait expliqué à Futura Mehdi Bennis, un chercheur travaillant sur ce type d'IA révolutionnaire à l'université de Oulu en Finlande. Pour maintenir la précision des réponses malgré un modèle considérablement plus petit, Meta a mixé deux méthodes en associant des adaptateurs QLoRA et un autre appelé SpinQuant.

    Le premier repose sur une formation sensible à la quantification, avec des adaptateurs LoRA. L'idée consiste à définir un poids fixe pour le modèle pré-entraîné et à ajouter des matrices qui, elles, peuvent l'être. Le nombre de paramètres pouvant être entraînés est réduit, et le processus d'adaptation de l'IA plus efficace. L'autre est dédié à la portabilité et s'appelle SpinQuant. Au final, avec cette combinaison, plus besoin d'une puissance de calcul colossale pour parvenir à un résultat. Lors des tests réalisés sur des téléphones AndroidAndroid OnePlus 12, les modèles étaient 56 % plus petits et utilisaient 41 % de mémoire en moins tout en traitant le texte plus de deux fois plus vite. La seule limitation repose sur la génération de textes ne pouvant aller au-delà de 8 000 caractères.

    Compresser les modèles et simplifier les calculs sans perdre de pertinence dans les résultats, c’est ce que permet de réaliser l’adaptateur QLoRA. Il ponctionne moins de puissance de calcul et de mémoire vive pour parvenir au même résultat qu’un grand modèle de langage. © Meta
    Compresser les modèles et simplifier les calculs sans perdre de pertinence dans les résultats, c’est ce que permet de réaliser l’adaptateur QLoRA. Il ponctionne moins de puissance de calcul et de mémoire vive pour parvenir au même résultat qu’un grand modèle de langage. © Meta

    Faire tourner l’IA directement sur le smartphone

    Mais ce n'est pas tout. Alors que GoogleGoogle et AppleApple adoptent une approche de l'IA sur mobile qui est imbriquée à leurs systèmes d'exploitation, Meta rend ses modèles compressés open source et en profite pour s'associer aux fabricants de puces Qualcomm et MediaTek. Avec l'open source, pas besoin pour les développeurs d'attendre des mises à jour d'Android ou d'iOSiOS pour pouvoir créer des applicationsapplications d'IA. Et en misant sur des partenariats avec Qualcomm et MediaTek, Meta optimise ses modèles pour ces processeurs largement utilisés. Cela lui permet de garantir que son IA saura fonctionner efficacement sur des téléphones de différentes gammes de prix, et pas seulement sur des appareils haut de gamme.

    On peut considérer que ce que Meta est en train de faire ressemble à ce qui s'est passé dans l'universunivers de l'informatique. Avant l'arrivée des PC, la puissance de traitement provenait d'ordinateursordinateurs centraux. Elle a fini par se retrouver sur les PC.

    Sur le même principe, aujourd'hui, l'IA suit ce processus pour basculer des serveursserveurs vers une exploitation directe sur les mobiles. Cela nécessitera toujours des téléphones suffisamment puissants pour fonctionner, mais l'avantage sera un renforcement de la confidentialitéconfidentialité des données sur le mobile, plutôt qu'elles ne transitent via le cloud pour être traitées. Une méthode qui va à l'encontre de la vision d'Apple et de Google pour l'IA sur les smartphones.