DeepSeek a réalisé une prouesse avec son modèle R1, qui réfléchit comme le modèle OpenAI o1, mais a été conçu avec très peu de ressources. Si certains suspectent la firme chinoise d'avoir utilisé des raccourcis, OpenAI va plus loin et l'accuse d'avoir utilisé ses propres modèles pour développer des modèles rivaux, selon le Financial Times.

Si nous n'avons pas de chiffres pour DeepSeek R1, il n'aura fallu que 2 048 puces graphiques Nvidia H800 pour entraîner DeepSeek V3, un autre modèle à 671 milliards de paramètres. Le coût d'entraînement annoncé pour V3 est de 5,6 millions de dollars, une somme dérisoire comparée aux dizaines ou centaines de millions de dollars dépensés par OpenAI ou Google pour développer et entraîner leurs propres modèles.

La distillation permet d’entraîner une IA à moindres frais

DeepSeek aurait réalisé des économies substantielles grâce à un processus de distillation, où un modèle apprend directement d'un autre modèle. En l'occurrence, OpenAI l'accuse d'avoir utilisé ChatGPT pour entraîner ses modèles, enfreignant les conditions d'utilisation du chatbot. Selon certains experts, les réponses données par le modèle V3 de DeepSeek indiquent qu'il aurait été entraîné sur des réponses de GPT-4 d'OpenAI. De plus, Microsoft et OpenAI avaient enquêté l'année dernière sur des comptes qu'ils ont attribués à DeepSeek et qui semblaient être utilisés pour la distillation, avant de les bloquer.

OpenAI indique avoir engagé des contremesures pour protéger sa propriété intellectuelle, ce qui est assez ironique étant donné que l'entreprise est elle-même accusée de violation du droit d'auteur. L'entreprise est notamment poursuivie en justice par le New York Times ainsi que par plusieurs auteurs, qui l'accusent d'avoir entraîné ChatGPT en utilisant leur travail sans leur consentement...

Logo WhatsApp

Suivez Futura sur WhatsApp et Google Actualités
pour ne rien rater de l’actualité sciences & tech !

Logo Google Actualités