Deep Cogito, une start-up de recherche en intelligence artificielle moins connue basée à San Francisco fondée par d’anciens employés de Google, a publié quatre nouveaux grands modèles de langage (LLM) ouverts qui tentent quelque chose que peu d’autres font : apprendre à raisonner de manière plus efficace avec le temps – et à s’améliorer par eux-mêmes.
Les modèles, publiés dans le cadre de la famille Cogito v2, vont de 70 milliards à 671 milliards de paramètres et sont disponibles pour les développeurs et les entreprises en intelligence artificielle sous une combinaison de termes de licence limités et entièrement ouverts. Ils comprennent :
Cogito v2-70B (Dense)
Cogito v2-109B (Mixture-of-experts)
Cogito v2-405B (Dense)
Cogito v2-671B (MoE)
Les modèles Dense et MoE sont adaptés à des besoins différents. Les modèles Dense 70B et 405B activent tous les paramètres à chaque passage en avant, ce qui les rend plus prévisibles et plus faciles à déployer sur une large gamme de matériels. Ils sont idéaux pour les applications à faible latence, le réglage fin et les environnements avec une capacité GPU limitée. Les modèles MoE, tels que les versions 109B et 671B, utilisent un mécanisme de routage épars pour activer seulement quelques sous-réseaux spécialisés « experts » à la fois, permettant des tailles de modèle totales beaucoup plus grandes sans augmentations proportionnelles des coûts de calcul.
Cela les rend bien adaptés aux tâches d’inférence haute performance, à la recherche en raisonnement complexe ou au service de précision de niveau de pointe à moindre coût d’exécution. Dans Cogito v2, le modèle MoE 671B sert de modèle phare, exploitant son échelle et son efficacité de routage pour égaler ou dépasser les principaux modèles ouverts sur les benchmarks – tout en utilisant des chaînes de raisonnement significativement plus courtes.
Les modèles sont disponibles dès maintenant sur Hugging Face pour le téléchargement et l’utilisation par les entreprises et sur Unsloth pour une utilisation locale, ou, pour ceux qui ne peuvent pas héberger les inférences du modèle sur leur propre matériel, via des interfaces de programmation d’applications (API) de Together AI, Baseten et RunPod.
Il existe également une version « point flottant 8 bits (FP8) » du modèle 671B, qui réduit la taille des nombres utilisés pour représenter les paramètres du modèle de 16 bits à 8 bits, aidant les utilisateurs à exécuter des modèles massifs plus rapidement, moins cher et sur un matériel plus accessible – parfois avec seulement une perte négligeable de performance (95 à 99%). Cependant, cela peut légèrement dégrader la précision du modèle, en particulier pour les tâches nécessitant une précision fine (certains problèmes de mathématiques ou de raisonnement).
Les quatre modèles Cogito v2 sont conçus comme des systèmes de raisonnement hybrides : ils peuvent répondre immédiatement à une requête ou, si nécessaire, réfléchir internement avant de répondre. De manière cruciale, cette réflexion n’est pas seulement un comportement d’exécution – elle est intégrée dans le processus de formation même.
Ces modèles sont formés à internaliser leur propre raisonnement. Cela signifie que les chemins qu’ils empruntent pour arriver aux réponses – les étapes mentales, pour ainsi dire – sont réintégrés dans les poids des modèles. Avec le temps, ils apprennent quelles lignes de pensée sont vraiment importantes et lesquelles ne le sont pas.
Comme le souligne le billet de blog de Deep Cogito, les chercheurs « désincitent le modèle à ‘errer davantage’ pour être capable d’arriver à la réponse, et développent plutôt une intuition plus forte pour la bonne trajectoire de recherche pour le processus de raisonnement. »
Le résultat, selon Deep Cogito, est un raisonnement plus rapide, plus efficace et une amélioration générale des performances, même en mode « standard ».
Alors que de nombreux acteurs de la communauté de l’IA découvrent à peine la société, Deep Cogito construit discrètement depuis plus d’un an. Elle est sortie de l’ombre en avril 2025 avec une série de modèles open-source formés sur le Llama 3.2 de Meta. Ces premières versions ont montré des résultats prometteurs.
Comme l’a rapporté précédemment VentureBeat, les plus petits modèles Cogito v1 (3B et 8B) ont surpassé les contreparties Llama 3 dans plusieurs benchmarks – parfois avec une large avance. Le PDG et co-fondateur de Deep Cogito, Drishan Arora – auparavant ingénieur principal en LLM chez Google – a décrit l’objectif à long terme de l’entreprise comme la construction de modèles capables de raisonner et de s’améliorer à chaque itération, un peu à la manière dont AlphaGo a affiné sa stratégie grâce à l’auto-jeu.
La méthode centrale de Deep Cogito, la distillation itérative et l’amplification (IDA), remplace les invites écrites à la main ou les enseignants statiques par les propres idées en évolution du modèle.
Avec Cogito v2, l’équipe a poussé cette boucle à une échelle beaucoup plus grande. L’idée centrale est simple : le raisonnement ne devrait pas seulement être un outil d’inférence, il devrait faire partie de l’intelligence fondamentale du modèle.
Ainsi, l’entreprise a mis en place un système où le modèle exécute des chaînes de raisonnement pendant la formation, puis est formé sur ses pensées intermédiaires.
Ce processus génère des améliorations concrètes, selon les benchmarks internes. Le modèle phare 671B MoE surpasse DeepSeek R1 dans les tâches de raisonnement, égalant ou surpassant son dernier modèle 0528 tout en utilisant des chaînes de raisonnement 60% plus courtes.
Sur MMLU, GSM8K et MGSM, la performance du Cogito 671B MoE était à peu près équivalente à celle des meilleurs modèles ouverts comme Qwen1.5-72B et DeepSeek v3, et approchait le niveau de performance des modèles fermés comme Claude 4 Opus et o3.
Spécifiquement :
Le Cogito 671B MoE (mode de raisonnement) a mis en correspondance DeepSeek R1 0528 sur plusieurs tâches multilingues de questions-réponses et de connaissances générales, et l’a surpassé sur la stratégie et la déduction logique.
En mode non-raisonnement, il a dépassé DeepSeek v3 0324, suggérant que l’intuition distillée avait un véritable poids de performance même sans un chemin de raisonnement étendu.
La capacité du modèle à compléter le raisonnement en moins d’étapes a également des effets secondaires : coûts d’inférence plus bas et temps de réponse plus rapides sur des questions complexes.
Arora explique cela comme une différence entre chercher un chemin et déjà savoir à peu près où se trouve la destination.
Étant donné que les modèles Cogito développent une meilleure intuition de la trajectoire à suivre lors de la recherche au moment de l’inférence, ils ont des chaînes de raisonnement 60% plus courtes que Deepseek R1, a-t-il écrit dans un fil sur X.
Certaines des exemples les plus convaincants des tests internes de Cogito v2 mettent en lumière exactement comment cela se manifeste dans l’utilisation.
Dans une question mathématique complexe, un utilisateur demande si un train voyageant à 80 mph peut atteindre une ville à 240 miles de distance en moins de 2,5 heures.
Alors que de nombreux modèles simulent le calcul étape par étape et commettent parfois des erreurs de conversion d’unités, Cogito 671B réfléchit internement, détermine que 240 ÷ 80 = 3 heures, et conclut correctement que le train ne peut pas arriver à temps. Il le fait avec une courte trace de raisonnement interne – moins de 100 jetons – comparé aux 200 et plus utilisés par DeepSeek R1 pour arriver à la même réponse.
Dans un autre exemple impliquant un raisonnement juridique, un utilisateur demande si un arrêt spécifique de la Cour suprême des États-Unis s’appliquerait à une affaire hypothétique impliquant une perquisition. Le mode de raisonnement de Cogito met en lumière une logique en deux étapes : d’abord déterminer si l’hypothèse correspond au précédent, puis expliquer pourquoi cela se fait ou non. Le modèle parvient à une réponse nuancée avec une justification claire – une sorte de raisonnement interprétatif avec lequel de nombreux LLM ont encore du mal.
D’autres tâches montrent des améliorations dans la gestion de l’ambiguïté. Sur une question classique à plusieurs étapes – « Si Alice est la mère de Bob, et que Bob est le père de Charlie, qui est Alice pour Charlie ? » – les modèles se perdent souvent dans les pronoms. Les modèles Cogito v2 identifient correctement Alice comme la grand-mère de Charlie, même dans des variantes légèrement reformulées où d’autres modèles ouverts échouent.
Malgré la taille massive des nouveaux modèles, Deep Cogito affirme avoir formé les huit modèles Cogito – y compris les points de contrôle plus petits de la v1 – pour moins de 3,5 millions de dollars au total, par rapport aux plus de 100 millions de dollars rapportés pour certains des principaux modèles d’OpenAI.
Cela comprend la génération de données, le renforcement synthétique, l’infrastructure et plus de 1 000 expériences de formation. Par rapport aux budgets à neuf chiffres d’autres modèles de pointe, c’est une fraction des dépenses habituelles.
Arora attribue cette frugalité à la thèse centrale de l’entreprise : les modèles plus intelligents ont besoin de meilleurs a priori, pas de plus de jetons.
En enseignant au modèle à sauter les chemins de raisonnement redondants ou trompeurs, Cogito v2 offre des performances plus solides sans faire exploser le temps d’inférence.
C’est un compromis significatif pour les utilisateurs exécutant des modèles sur une infrastructure API ou des appareils edge où la latence et le coût sont importants.
La sortie de Cogito v2 n’est pas un produit final, mais une étape itérative. Arora décrit la feuille de route de l’entreprise comme une « escalade de collines » – en exécutant des modèles, en apprenant de leurs traces de raisonnement, en les distillant et en répétant la boucle. Avec le temps, chaque modèle devient une pierre de touche pour le suivant.
Chaque modèle que Deep Cogito a publié est open-source, et l’entreprise dit que cela restera vrai pour les futures itérations.
Déjà, son travail a attiré l’attention et le soutien de soutiens comme Eric Vishria de Benchmark et Aditya Agarwal de South Park Commons. Les partenaires en infrastructure incluent Hugging Face, Together AI, RunPod, Baseten, l’équipe Llama de Meta et Unsloth.
Pour les développeurs, les chercheurs et les équipes d’entreprise, les modèles sont disponibles dès maintenant. Les développeurs peuvent les exécuter localement, comparer les modes ou les régler finement pour des cas d’utilisation spécifiques.
Et, pour la communauté open-source de l’IA, Cogito v2 offre plus qu’un simple nouveau gagnant du benchmark – il propose une manière différente de construire l’intelligence. Non pas en pensant plus fort, mais en apprenant à penser mieux.


