Dans un entretien diffusé sur sa plateforme X, Elon Musk a évoqué le problème de la pénurie des données pour l’entraînement des intelligences artificielles. La solution résiderait dans des données synthétiques, ce qui n’est pas sans risque…


au sommaire


    L'intégralité des connaissances de l'humanité ne suffit plus à entraîner les intelligences artificielles. C'est l'affirmation d'Elon MuskElon Musk lors d'une conversation avec Mark Penn, président-directeur général de Stagwell, diffusée en direct sur X (ex-TwitterTwitter). Le problème d'une pénurie de données est l'une des principales faiblesses des grands modèles de langage actuels, évoqué déjà depuis un certain temps.

    « Nous avons désormais épuisé la somme cumulative des connaissances humaines... dans l'entraînement de l'IA, a déclaré le milliardaire. Cela s'est produit l'année dernière. » La solution résiderait dans les données synthétiques selon de nombreux spécialistes, y compris Elon Musk. Cela signifie que les IA devront être entraînées sur des données générées par IA et s'autoévaluer.

    Vers un effondrement des modèles d’IA causé par les données synthétiques ?

    L'utilisation de données synthétiques n'a rien de nouveau. En plus de pallier la pénurie de données, cela permet aussi de réduire le coût de l'entraînement. La startup Writer affirme avoir pu abaisser le coût d'entraînement de son modèle Palmyra X 004 à 700 000 dollars, contre une facture de 4,6 millions de dollars si elle n'avait pas utilisé des données synthétiques. MicrosoftMicrosoft a indiqué avoir utilisé des données synthétiques pour son modèle ouvert Phi-4, de même que GoogleGoogle avec son modèle Gemma, Anthropic avec Claude 3.5 Sonnet ou encore Meta avec Llama.

    L'un des problèmes, évoqué par Musk, est le risque d’hallucinations. Que se passe-t-il lorsqu'une IA est entraînée sur des données produites par une autre IA, contenant des erreurs ? L'IA dégénère, dans un phénomène appelée effondrementeffondrement de modèle, ou model collapse. Le risque est une réduction de la créativité et une augmentation des biais, ce qui pourrait obliger les entreprises à revoir la manière dont sont conçus les grands modèles de langage.