Tencent a élargi sa famille de modèles d’IA Hunyuan open source qui sont suffisamment polyvalents pour une utilisation étendue. Cette nouvelle famille de modèles est conçue pour offrir des performances puissantes dans des environnements computationnels variés, des petits appareils périphériques aux systèmes de production exigeants et à haute concurrence.
Cette publication comprend un ensemble complet de modèles pré-entraînés et optimisés disponibles sur la plateforme de développement Hugging Face. Les modèles se déclinent en plusieurs tailles, spécifiquement avec des échelles de paramètres de 0,5B, 1,8B, 4B et 7B, offrant une flexibilité substantielle pour les développeurs et les entreprises.
Tencent a indiqué que ces modèles ont été développés en utilisant des stratégies d’entraînement similaires à son modèle Hunyuan-A13B plus puissant, leur permettant d’hériter de ses caractéristiques de performance. Cette approche permet aux utilisateurs de sélectionner le modèle optimal en fonction de leurs besoins, que ce soit une variante plus petite pour le calcul périphérique limité en ressources ou un modèle plus grand pour les charges de travail de production à haut débit, tout en garantissant des capacités solides.
Une des caractéristiques les plus remarquables de la série Hunyuan est son support natif pour une fenêtre contextuelle ultra-longue de 256K. Cela permet aux modèles de gérer et de maintenir des performances stables sur des tâches de texte long, une capacité essentielle pour l’analyse de documents complexes, les conversations étendues et la génération de contenu approfondi. Les modèles prennent en charge ce que Tencent appelle le « raisonnement hybride », qui permet à la fois des modes de réflexion rapide et lente que les utilisateurs peuvent choisir en fonction de leurs besoins spécifiques.
L’entreprise a également mis l’accent sur les capacités agentiques. Les modèles ont été optimisés pour les tâches basées sur les agents et ont démontré des résultats de premier plan sur des références établies telles que BFCL-v3, τ-Bench et C3-Bench, suggérant un haut degré de compétence dans la résolution de problèmes complexes et multi-étapes. Par exemple, sur le C3-Bench, le modèle Hunyuan-7B-Instruct atteint un score de 68,5, tandis que le modèle Hunyuan-4B-Instruct obtient un score de 64,3.
Les performances de la série sont axées sur l’inférence efficace. Les modèles Hunyuan de Tencent utilisent la Grouped Query Attention (GQA), une technique connue pour améliorer la vitesse de traitement et réduire la surcharge computationnelle. Cette efficacité est encore renforcée par un support de quantification avancé, un élément clé de l’architecture Hunyuan conçu pour abaisser les barrières de déploiement.
Tencent a développé son propre ensemble d’outils de compression, AngleSlim, pour créer une solution de compression de modèle plus conviviale et efficace. En utilisant cet outil, la société propose deux principaux types de quantification pour la série Hunyuan.
Le premier est la quantification statique FP8, qui utilise un format à virgule flottante sur 8 bits. Cette méthode utilise une petite quantité de données de calibration pour pré-déterminer l’échelle de quantification sans nécessiter de re-entraînement complet, convertissant les poids du modèle et les valeurs d’activation dans le format FP8 pour améliorer l’efficacité de l’inférence.
Le deuxième méthode est la quantification INT4, qui réalise une quantification W4A16 grâce aux algorithmes GPTQ et AWQ :
– L’approche GPTQ traite les poids du modèle couche par couche, en utilisant des données de calibration pour minimiser les erreurs dans les poids quantifiés. Ce processus évite le re-entraînement du modèle et améliore la vitesse d’inférence.
– L’algorithme AWQ fonctionne en analysant statistiquement l’amplitude des valeurs d’activation à partir d’un petit ensemble de données de calibration. Il calcule ensuite un coefficient d’échelle pour chaque canal de poids, ce qui étend la plage numérique des poids importants pour conserver plus d’informations pendant le processus de compression.
Les développeurs peuvent soit utiliser l’outil AngleSlim eux-mêmes, soit télécharger directement les modèles pré-quantifiés.
Les benchmarks de performance confirment les fortes capacités des modèles Hunyuan de Tencent sur une gamme de tâches. Par exemple, le modèle Hunyuan-7B pré-entraîné atteint un score de 79,82 sur le benchmark MMLU, de 88,25 sur GSM8K et de 74,85 sur le benchmark MATH, démontrant des compétences solides en raisonnement et en mathématiques.
Les variantes optimisées pour les instructions montrent des résultats impressionnants dans des domaines spécialisés. En mathématiques, le modèle Hunyuan-7B-Instruct obtient un score de 81,1 sur le benchmark AIME 2024, tandis que la version 4B obtient un score de 78,3. En science, le modèle 7B atteint 76,5 sur OlympiadBench, et en codage, il obtient 42 sur Livecodebench.
Les benchmarks de quantification montrent une dégradation minimale des performances. Sur le benchmark DROP, le modèle Hunyuan-7B-Instruct obtient un score de 85,9 dans son format de base B16, de 86,0 avec FP8 et de 85,7 avec Int4 GPTQ, ce qui indique que les gains d’efficacité ne se font pas au détriment de la précision.
Pour le déploiement, Tencent recommande d’utiliser des frameworks établis tels que TensorRT-LLM, vLLM ou SGLang pour servir les modèles Hunyuan et créer des points d’API compatibles avec OpenAI, garantissant qu’ils peuvent être intégrés en douceur dans les flux de développement existants. Cette combinaison de performances, d’efficacité et de flexibilité de déploiement positionne la série Hunyuan comme un concurrent puissant et continu dans le domaine de l’IA open source.
Découvrez également : Deep Cogito v2 : une IA open source qui affine ses compétences en raisonnement.
Vous voulez en savoir plus sur l’IA et le big data auprès des leaders de l’industrie ? Consultez l’AI & Big Data Expo qui se tient à Amsterdam, en Californie et à Londres. Cet événement complet est co-localisé avec d’autres événements de premier plan, notamment la Conférence sur l’automatisation intelligente, BlockX, Digital Transformation Week et Cyber Security & Cloud Expo.
Explorez d’autres événements technologiques d’entreprise à venir et des webinaires organisés par TechForge ici.


