Les dirigeants d’entreprise qui luttent contre les coûts élevés de déploiement des modèles d’IA pourraient trouver un soulagement grâce à une nouvelle conception architecturale. Les capacités de l’IA générative sont attractives, mais leurs immenses exigences computationnelles pour la formation et l’inférence entraînent des coûts prohibitifs et des préoccupations environnementales croissantes. Au cœur de cette inefficacité se trouve le « goulot d’étranglement fondamental » des processus autorégressifs des modèles qui génèrent du texte de manière séquentielle, jeton par jeton.
Pour les entreprises traitant de vastes flux de données, des réseaux IoT aux marchés financiers, cette limitation rend la génération d’analyses de longue durée à la fois lente et économiquement difficile. Cependant, un nouvel article de recherche de Tencent AI et de l’Université Tsinghua propose une alternative.
Cette recherche introduit les modèles de langage autorégressifs continus (CALM). Cette méthode réingénie le processus de génération pour prédire un vecteur continu plutôt qu’un jeton discret. Un autoencodeur haute fidélité « compresse un bloc de K jetons en un seul vecteur continu », qui détient une bande passante sémantique beaucoup plus élevée.
Au lieu de traiter quelque chose comme « le », « chat », « s’est assis » en trois étapes, le modèle les compresse en un seul. Cette conception « réduit directement le nombre d’étapes génératives », en s’attaquant à la charge computationnelle.
Les résultats expérimentaux démontrent un meilleur compromis performance-calcul. Un modèle d’IA CALM regroupant quatre jetons a offert des performances « comparables à des références discrètes solides, mais à un coût computationnel significativement inférieur » pour une entreprise. Par exemple, un modèle CALM nécessitait 44 % de FLOPs de moins pour l’entraînement et 34 % de FLOPs de moins pour l’inférence qu’un Transformer de référence de capacité similaire. Cela indique des économies à la fois sur les dépenses en capital initiales de formation et sur les dépenses opérationnelles récurrentes d’inférence.
Passer d’un vocabulaire fini et discret à un espace vectoriel continu infini brise l’outil standard LLM. Les chercheurs ont dû développer un « cadre complet sans vraisemblance » pour rendre le nouveau modèle viable. Pour l’entraînement, le modèle ne peut pas utiliser une couche softmax standard ou une estimation de la vraisemblance maximale. Pour résoudre cela, l’équipe a utilisé un objectif « sans vraisemblance » avec un transformateur d’énergie, qui récompense le modèle pour des prédictions précises sans calculer de probabilités explicites.
Cette nouvelle méthode d’entraînement a également nécessité une nouvelle métrique d’évaluation. Les benchmarks standard comme la perplexité sont inapplicables car ils reposent sur les mêmes vraisemblances que le modèle ne calcule plus. L’équipe a proposé BrierLM, une nouvelle métrique basée sur le score de Brier qui peut être estimée uniquement à partir d’échantillons de modèle. La validation a confirmé que BrierLM est une alternative fiable, montrant une « corrélation de rang de Spearman de -0,991 » avec les métriques de perte traditionnelles.
Enfin, le cadre restaure la génération contrôlée, une fonctionnalité clé pour une utilisation en entreprise. L’échantillonnage de température standard est impossible sans une distribution de probabilité. L’article propose un nouvel algorithme d’échantillonnage « sans vraisemblance », comprenant une méthode d’approximation par lots pratique, pour gérer le compromis entre la précision et la diversité des sorties.
Cette recherche offre un aperçu d’un avenir où l’IA générative n’est pas définie uniquement par des comptes de paramètres de plus en plus importants, mais par une efficacité architecturale. Le chemin actuel de mise à l’échelle des modèles atteint un mur de rendements décroissants et de coûts croissants. Le cadre CALM établit un « nouvel axe de conception pour la mise à l’échelle de LLM : augmenter la bande passante sémantique de chaque étape générative ».
Bien qu’il s’agisse d’un cadre de recherche et non d’un produit prêt à l’emploi, il indique une voie puissante et évolutive vers des modèles de langage ultra-efficaces. Lors de l’évaluation des feuilles de route des fournisseurs, les dirigeants technologiques devraient regarder au-delà de la taille du modèle et commencer à s’intéresser à l’efficacité architecturale. La capacité à réduire les FLOPs par jeton généré deviendra un avantage concurrentiel déterminant, permettant le déploiement plus économique et durable de l’IA à travers l’entreprise pour réduire les coûts – du centre de données aux applications edge lourdes en données.


