La Chine prend la tête avec une intelligence artificielle qui surpasse GPT-4 dans les raisonnements complexes !

OpenAI o1, le modèle de langage pour les raisonnements complexes dévoilé récemment, a déjà de la concurrence. Voici DeepSeek R1-Lite-Preview, un premier aperçu d’une intelligence artificielle qui prend le temps de réfléchir et d’expliciter son raisonnement.

au sommaire

Même si les principales entreprises d'intelligence artificielle sont localisées aux États-Unis et en Europe, la Chine rattrape son retard à toute vitessevitesse. Le Chinois DeepSeek se fait de plus en plus remarquer pour ses grands modèles de langage publiés sous licence libre et capables de rivaliser avec ceux d'OpenAI.

Après DeepSeek-V2.5 publié en septembre qui a battu GPT-4GPT-4, et DeepSeek Coder V2 dévoilé en juin qui bat GPT-4 Turbo pour les mathématiques et la programmation, voici DeepSeek R1-Lite-Preview. Il s'agit d'un premier aperçu de ce nouveau modèle qui, comme OpenAI o1, est spécialisé dans les raisonnements complexes. Et selon DeepSeek, il parvient à battre le modèle d'OpenAI sur plusieurs benchmarks.

Un modèle pour le raisonnement complexe qui explicite sa pensée

Ce modèle a la particularité d'expliciter sa chaîne de pensée (CoT), permettant de suivre les différentes étapes de son raisonnement. Et il prend son temps. Le chatbot indique le temps passé à réfléchir, qui est souvent de l'ordre d'une trentaine de secondes. Selon les tests effectués par DeepSeek, son R1-Lite-Preview est particulièrement doué pour les inférences logiques, le raisonnement mathématique et la résolution de problèmes en temps réel. Il obtient même de meilleurs scores qu'OpenAI o1 sur les benchmarks de mathématiques AIME et MATH, et des scores très similaires pour la programmation, notamment Codeforces et LiveCodeBench.

DeepSeek n'a pas encore partagé le code et les poids de son nouveau modèle, mais il est possible de l'essayer gratuitement sur son site chat.deepseek.com, avec une limite de 50 messages par jour. Toutefois, l'entreprise a indiqué sur X (ex-TwitterTwitter) que le modèle et l'APIAPI devraient arriver bientôt.