L’institut Allen pour l’IA (Ai2) a récemment lancé ce qu’il appelle sa famille de modèles la plus puissante à ce jour, Olmo 3. Mais l’entreprise a continué d’itérer sur les modèles, en étendant ses exécutions d’apprentissage par renforcement (RL) pour créer Olmo 3.1.
Les nouveaux modèles Olmo 3.1 se concentrent sur l’efficacité, la transparence et le contrôle pour les entreprises.
Ai2 a mis à jour deux des trois versions d’Olmo 2 : Olmo 3.1 Think 32B, le modèle phare optimisé pour la recherche avancée, et Olmo 3.1 Instruct 32B, conçu pour suivre les instructions, les dialogues multi-tours et l’utilisation d’outils.
Olmo 3 a une troisième version, Olmo 3-Base pour la programmation, la compréhension et les mathématiques. Il fonctionne également bien pour le réglage fin continu.
Ai2 a déclaré que pour mettre à niveau Olmo 3 Think 32B vers Olmo 3.1, ses chercheurs ont étendu leur meilleur exécution RL avec un calendrier d’entraînement plus long.
Pour parvenir à Olmo 3.1 Instruct, Ai2 a déclaré que ses chercheurs ont appliqué la recette derrière la taille plus petite d’Instruct, 7B, au modèle plus grand.
Les nouveaux points de contrôle sont actuellement disponibles sur Ai2 Playground ou Hugging Face, avec un accès à l’API à venir.
Les modèles Olmo 3.1 ont bien performé aux tests de référence, battant prévisiblement les modèles Olmo 3. Olmo 3.1 Think a surpassé les modèles Qwen 3 32B dans le test AIME 2025 et s’est rapproché de Gemma 27B.
Olmo 3.1 Instruct s’est bien comporté face à ses pairs open source, battant même des modèles comme Gemma 3 dans le test de mathématiques.
Ai2 a également amélioré ses modèles RL-Zero 7B pour les mathématiques et la programmation. L’entreprise a déclaré sur X que les deux modèles ont bénéficié d’exécutions d’entraînement plus longues et plus stables.
Ai2 a précédemment déclaré à VentureBeat que la conception de la famille de modèles Olmo 3 visait à offrir aux entreprises et aux laboratoires de recherche plus de contrôle et de compréhension des données et de l’entraînement qui ont alimenté le modèle.
Les organisations pourraient ajouter au mélange de données du modèle et le re-entraîner pour également apprendre de ce qui a été ajouté. Cela a longtemps été un engagement pour Ai2, qui propose également un outil appelé OlmoTrace qui trace comment les sorties LLM correspondent à ses données d’entraînement.
« Ensemble, Olmo 3.1 Think 32B et Olmo 3.1 Instruct 32B montrent que l’ouverture et la performance peuvent avancer ensemble. En étendant le même flux de modèle, nous continuons à améliorer les capacités tout en conservant la transparence de bout en bout sur les données, le code et les décisions d’entraînement », a déclaré Ai2.


