Des chercheurs ont créé une nouvelle architecture pour l’intelligence artificielle générative, bien moins gourmande en puissance de calcul que celle utilisée actuellement. Le secret ? Imbriquer des réseaux neuronaux les uns dans les autres.


au sommaire


    Les intelligences artificielles génératives, telles que ChatGPTChatGPT, Dall-E et Sora d'OpenAI, ou encore Gemini de GoogleGoogle ou Claude d'Anthropic, sont très gourmandes en puissance de calcul, et donc en énergieénergie. Elon MuskElon Musk avait prédit il y a quelques mois qu'il ne restait qu'un an avant que le monde ne connaisse une pénurie d'électricité.

    L'informatique neuromorphique, consistant à imiter le cerveau humain, est la voie royale pour produire des machines plus performantes, mais aussi moins gourmandes en énergie. © Futura

    Pour tenter de résoudre ce problème, un groupe de chercheurs de plusieurs universités de Californie (Stanford, San Diego et Berkeley), ainsi que de Meta, proposent une nouvelle architecture baptisée Test-Time Training (TTT), qui utilise des réseaux neuronaux récurrents (RNN). Les IA génératives actuelles s'appuient sur une architecture appelée Transformer, dont un des principaux défauts est la complexité quadratique, autrement dit la puissance de calcul nécessaire est proportionnelle au carré de la quantité de données en entrée.

    Un réseau neuronal dans un réseau neuronal

    La nouvelle architecture TTT résout ce problème en intégrant une IA dans une IA. Dans les couches de TTT, les états cachés incluent des modèles d'apprentissage automatique. Ces modèles peuvent être mis à jour pour mieux correspondre au contexte des données en entrée via une méthode d'apprentissage auto-supervisé. Contrairement à l'architecture Transformer, l'architecture TTT apprend donc en continu.

    Le résultat est une IA avec une complexité linéaire, autrement dit la puissance de calcul nécessaire est directement proportionnelle à la quantité de données en entrée, ce qui est bien plus efficace que l'architecture Transformer. Toutefois, les chercheurs n'ont pour l'instant testé que deux petits modèles. Il faudra de plus amples recherches pour savoir si l'architecture TTT peut rivaliser en matièrematière de résultats avec les IA basées sur Transformer.