Les entreprises qui déploient des projets d’intelligence artificielle rencontrent un mur de performance invisible. La cause? Les spéculateurs statiques qui ne parviennent pas à suivre les charges de travail changeantes.
Les spéculateurs sont de petits modèles d’IA qui travaillent aux côtés des grands modèles de langage pendant l’inférence. Ils rédigent plusieurs jetons à l’avance, que le modèle principal vérifie ensuite en parallèle. Cette technique, appelée décodage spéculatif, est devenue essentielle pour les entreprises qui cherchent à réduire les coûts et la latence de l’inférence. Au lieu de générer des jetons un par un, le système peut accepter plusieurs jetons à la fois, améliorant ainsi considérablement le débit.
Aujourd’hui, Together AI a annoncé une recherche et un nouveau système appelé ATLAS (AdapTive-LeArning Speculator System) qui vise à aider les entreprises à surmonter le défi des spéculateurs statiques. La technique offre une capacité d’optimisation de l’inférence auto-apprenante qui peut aider à fournir des performances d’inférence jusqu’à 400% plus rapides qu’un niveau de performance de base disponible dans les technologies d’inférence existantes comme vLLM. Le système répond à un problème critique: à mesure que les charges de travail en IA évoluent, les vitesses d’inférence diminuent, même avec des spéculateurs spécialisés en place.
La société, qui a débuté en 2023, s’est concentrée sur l’optimisation de l’inférence sur sa plateforme IA d’entreprise. Plus tôt cette année, la société a levé 305 millions de dollars alors que l’adoption par les clients et la demande augmentaient.
« Les entreprises avec lesquelles nous travaillons généralement, à mesure qu’elles se développent, constatent des charges de travail changeantes, et elles ne voient pas autant d’accélération de l’exécution spéculative qu’auparavant », a déclaré Tri Dao, scientifique en chef chez Together AI, dans une interview exclusive à VentureBeat. « Ces spéculateurs ne fonctionnent généralement pas bien lorsque leur domaine de charge de travail commence à changer. »
Le problème du déplacement de la charge de travail dont personne ne parle
La plupart des spéculateurs en production aujourd’hui sont des modèles « statiques ». Ils sont formés une fois sur un ensemble de données fixe représentant les charges de travail attendues, puis déployés sans aucune capacité d’adaptation. Des entreprises comme Meta et Mistral expédient des spéculateurs pré-entraînés aux côtés de leurs principaux modèles. Les plateformes d’inférence comme vLLM utilisent ces spéculateurs statiques pour augmenter le débit sans changer la qualité de la sortie.
Mais il y a un hic. Lorsque l’utilisation de l’IA d’une entreprise évolue, la précision du spéculateur statique chute.
« Si vous êtes une entreprise produisant des agents de codage, et que la plupart de vos développeurs écrivaient en Python, tout à coup certains passent à l’écriture en Rust ou en C, alors vous voyez la vitesse commencer à baisser », a expliqué Dao. « Le spéculateur présente un désaccord entre ce sur quoi il a été formé et ce que sont réellement les charges de travail. »
Ce déplacement de la charge de travail représente une taxe cachée sur l’expansion de l’IA. Les entreprises acceptent soit une performance dégradée, soit investissent dans la réadaptation de spéculateurs personnalisés. Ce processus ne capture qu’un instantané dans le temps et devient rapidement obsolète.
Comment fonctionnent les spéculateurs adaptatifs : Une approche à double modèle
ATLAS utilise une architecture de double spéculateur qui combine stabilité et adaptation :
Le spéculateur statique – Un modèle lourd formé sur des données larges fournit une performance de base cohérente. Il sert de « plancher de vitesse. »
Le spéculateur adaptatif – Un modèle léger apprend en continu du trafic en direct. Il se spécialise en temps réel pour les domaines et les modèles d’utilisation émergents.
Le contrôleur conscient de la confiance – Une couche d’orchestration choisit dynamiquement quel spéculateur utiliser. Il ajuste l’anticipation de la spéculation en fonction des scores de confiance.
« Avant que le spéculateur adaptatif n’apprenne quoi que ce soit, nous avons toujours le spéculateur statique pour aider à fournir l’impulsion en début de processus », a expliqué Ben Athiwaratkun, scientifique AI chez Together AI à VentureBeat. « Une fois que le spéculateur adaptatif devient plus confiant, alors la vitesse augmente au fil du temps. »
L’innovation technique réside dans l’équilibre entre le taux d’acceptation (à quelle fréquence le modèle cible est d’accord avec les jetons rédigés) et la latence de rédaction. Au fur et à mesure que le modèle adaptatif apprend des schémas de trafic, le contrôleur s’appuie davantage sur le spéculateur léger et étend l’anticipation. Cela amplifie les gains de performance.
Les utilisateurs n’ont pas besoin de régler des paramètres. « Du côté de l’utilisateur, les utilisateurs n’ont pas à manipuler de boutons », a déclaré Dao. « De notre côté, nous avons tourné ces boutons pour que les utilisateurs puissent les ajuster dans une configuration qui offre une bonne accélération. »
Des performances qui rivalisent avec les puces en silicium personnalisées
Les tests de Together AI montrent qu’ATLAS atteint 500 jetons par seconde sur DeepSeek-V3.1 lorsqu’il est entièrement adapté. Plus impressionnant encore, ces chiffres sur les GPU Nvidia B200 égalent ou dépassent les puces d’inférence spécialisées comme celles de Groq.
« L’amélioration logicielle et algorithmique permet de combler l’écart avec un matériel spécialisé », a déclaré Dao. « Nous avons observé 500 jetons par seconde sur ces énormes modèles qui sont même plus rapides que certaines des puces personnalisées. »
L’accélération de 400% que la société revendique pour l’inférence représente l’effet cumulatif de la suite d’optimisation Turbo de Together. La quantification FP4 offre une accélération de 80% par rapport à la référence FP8. Le Turbo Speculator statique ajoute un gain supplémentaire de 80 à 100%. Le système adaptatif se superpose. Chaque optimisation compense les avantages des autres.
Comparé aux moteurs d’inférence standard comme vLLM ou TensorRT-LLM de Nvidia, l’amélioration est substantielle. Together AI effectue des benchmarks par rapport à la meilleure référence entre les deux pour chaque charge de travail avant d’appliquer les optimisations spéculatives.
L’explication de l’échange mémoire-calcul
Les gains de performance découlent de l’exploitation d’une inefficacité fondamentale dans l’inférence moderne : la capacité de calcul gaspillée.
Dao a expliqué que pendant l’inférence, une grande partie de la puissance de calcul n’est pas pleinement utilisée.
« Pendant l’inférence, qui est en fait la charge de travail dominante de nos jours, vous utilisez principalement le sous-système mémoire », a-t-il déclaré.
Le décodage spéculatif échange la puissance de calcul inutilisée contre une réduction de l’accès mémoire. Lorsqu’un modèle génère un jeton à la fois, il est limité par la mémoire. Le GPU reste inactif en attendant la mémoire. Mais lorsque le spéculateur propose cinq jetons et que le modèle cible les vérifie simultanément, l’utilisation de la puissance de calcul augmente tandis que l’accès mémoire reste à peu près constant.
« La quantité totale de calcul pour générer cinq jetons est la même, mais vous n’avez eu à accéder à la mémoire qu’une seule fois, au lieu de cinq fois », a déclaré Dao.
Considérez-le comme un cache intelligent pour l’IA
Pour les équipes d’infrastructure familiarisées avec l’optimisation de bases de données traditionnelles, les spéculateurs adaptatifs fonctionnent comme une couche de mise en cache intelligente, mais avec une différence cruciale.
Les systèmes de mise en cache traditionnels comme Redis ou memcached nécessitent des correspondances exactes. Vous stockez le résultat de la requête exacte et le récupérez lorsque cette requête spécifique est à nouveau exécutée. Les spéculateurs adaptatifs fonctionnent différemment.
« Vous pouvez le considérer comme un moyen intelligent de mettre en cache, sans stocker exactement, mais en découvrant certains schémas que vous voyez », a expliqué Dao. « De manière générale, nous observons que vous travaillez avec un code similaire, ou que vous contrôlez le calcul de manière similaire. Nous pouvons alors prédire ce que le grand modèle va dire. Nous devenons simplement de plus en plus forts pour prédire cela. »
Plutôt que de stocker des réponses exactes, le système apprend les schémas selon lesquels le modèle génère des jetons. Il reconnaît que si vous modifiez des fichiers Python dans une base de code spécifique, certaines séquences de jetons deviennent plus probables. Le spéculateur s’adapte à ces schémas, améliorant ses prédictions au fil du temps sans nécessiter d’entrées identiques.
Cas d’utilisation : Entraînement RL et charges de travail évolutives
Deux scénarios d’entreprise bénéficient particulièrement des spéculateurs adaptatifs :
Entraînement par renforcement : Les spéculateurs statiques perdent rapidement leur alignement alors que la politique évolue pendant l’entraînement. ATLAS s’adapte en continu à la distribution de politique changeante.
Charges de travail évolutives : Alors que les entreprises découvrent de nouveaux cas d’utilisation de l’IA, la composition des charges de travail évolue. « Peut-être ont-elles commencé à utiliser l’IA pour des chatbots, puis elles se sont rendu compte qu’elle pouvait écrire du code, alors elles commencent à basculer vers le code », a déclaré Dao. « Ou elles réalisent que ces IA peuvent en fait appeler des outils et contrôler des ordinateurs et faire de la comptabilité, et des choses comme ça. »
Au cours d’une session de codage d’ambiance, le système adaptatif peut se spécialiser pour la base de code spécifique en cours d’édition. Il s’agit de fichiers non vu lors de l’entraînement. Cela augmente encore les taux d’acceptation et la vitesse de décodage.
Implications pour les entreprises et l’écosystème d’inférence
ATLAS est désormais disponible sur les points de terminaison dédiés de Together AI en tant que partie de la plateforme sans frais supplémentaires. Les plus de 800 000 développeurs de l’entreprise (contre 450 000 en février) ont accès à l’optimisation.
Mais les implications plus larges vont au-delà du produit d’un seul fournisseur. Le passage de l’optimisation statique à l’adaptation représente une refonte fondamentale de la façon dont les plateformes d’inférence devraient fonctionner. Alors que les entreprises déploient l’IA dans plusieurs domaines, l’industrie devra passer des modèles formés une seule fois à des systèmes qui apprennent et s’améliorent en continu.
Together AI a historiquement publié certaines de ses techniques de recherche en open source et collaboré avec des projets comme vLLM. Bien que le système ATLAS entièrement intégré soit propriétaire, certaines des techniques sous-jacentes pourraient éventuellement influencer l’écosystème d’inférence plus large.
Pour les entreprises cherchant à être leaders en IA, le message est clair : les algorithmes adaptatifs sur un matériel standard peuvent rivaliser avec le silicium personnalisé à une fraction du coût. À mesure que cette approche se développe dans l’industrie, l’optimisation logicielle l’emporte de plus en plus sur le matériel spécialisé.


