au sommaire
Pour entraîner les intelligences artificielles comme ChatGPTChatGPT, il faut de grandes quantités de données. Plus les modèles de langage derrière les chatbotschatbots se complexifient, plus ils nécessitent de données. Selon un article du Wall Street Journal, les entreprises spécialisées dans l'IAIA pourraient bientôt se heurter à un problème majeur : l'intégralité des données d'InternetInternet ne suffirait plus. Ou, tout du moins, un contenu de qualité suffisante pour l'entraînement des IA.
Les données utilisateurs sont la prochaine étape dans la montée en puissance des IA. Google n'a d'ailleurs pas attendu, en raflant toutes vos informations déjà librement accessibles en ligne pour entraîner sa propre intelligence artificielle. © Futura
Avec certaines sources de données qui bloquent l'accès à leurs contenus pour l'entraînement des IA, plusieurs spécialistes pensent que les besoins en données dépasseront le contenu disponible d'ici deux ans. Un problème qui pourrait ralentir le développement du domaine.
Entraînées sur du contenu synthétique
En coulisses, certains explorent la possibilité d'utiliser du contenu généré synthétiquement. Anthropic a déjà indiqué avoir utilisé des données synthétiques pour le développement de Claude 3. Toutefois, ceci pourrait conduire à un phénomène appelé « model collapse », l'effondrementeffondrement des modèles de langage. Il s'agit d'une sorte de consanguinitéconsanguinité numériquenumérique, un cercle vicieux où les IA entraînées sur des contenus produits par d'autres IA perdront en qualité. D'autres entreprises, comme OpenAI, tentent d'accéder à de nouveaux contenus, comme les transcriptions des vidéos YouTubeYouTube.
L'une des solutions évoquées serait la fin des grands modèles universels, et le développement des modèles spécialisés, beaucoup plus petits. Dans tous les cas, le développement de l'IA risque également d'être freiné par une pénurie de puces spécialisées et une demande croissante en énergieénergie.
Suivez Futura sur WhatsApp et Google Actualités
pour ne rien rater de l’actualité sciences & tech !