jeu 5 février 2026
AccueilIntelligence artificielleERNIE-4.5-VL-28B-A3B-Thinking: Révolution dans l'IA visuelle

ERNIE-4.5-VL-28B-A3B-Thinking: Révolution dans l’IA visuelle

Date:

Ceci pourrait vous plaire




Arcane Visions - Thème astral

Baidu Inc., la plus grande entreprise de moteur de recherche en Chine, a lancé un nouveau modèle d’intelligence artificielle le lundi, affirmant que ses développeurs surclassent les concurrents de Google et OpenAI sur plusieurs benchmarks liés à la vision, tout en utilisant une fraction des ressources informatiques habituellement nécessaires pour de tels systèmes.

Le modèle, nommé ERNIE-4.5-VL-28B-A3B-Thinking, représente une avancée majeure dans la compétition entre les entreprises technologiques pour construire des systèmes d’IA capables de comprendre et de raisonner sur les images, les vidéos et les documents en plus du texte traditionnel, des capacités de plus en plus cruciales pour des applications d’entreprise allant du traitement automatisé de documents au contrôle de qualité industriel.

Ce qui distingue la sortie de Baidu, c’est son efficacité : le modèle n’active que 3 milliards de paramètres en opération tout en maintenant un total de 28 milliards de paramètres grâce à une architecture de routage sophistiquée. Selon la documentation publiée avec le modèle, cette conception lui permet d’égaler voire de surpasser les performances de systèmes concurrents beaucoup plus grands sur des tâches impliquant la compréhension de documents, l’analyse de graphiques et le raisonnement visuel, tout en consommant beaucoup moins de puissance de calcul et de mémoire.

Construit sur l’architecture puissante ERNIE-4.5-VL-28B-A3B, le ERNIE-4.5-VL-28B-A3B-Thinking nouvellement amélioré réalise un bond remarquable dans les capacités de raisonnement multimodal, a écrit Baidu dans la documentation technique du modèle sur Hugging Face, le référentiel de modèles d’IA où le système a été publié.

Le modèle a subi une phase de mi-entraînement étendue qui a incorporé un vaste et très divers corpus de données de raisonnement en langage visuel premium, augmentant considérablement sa capacité à aligner de manière sémantique l’information visuelle et textuelle.

La caractéristique la plus distinctive du modèle est ce que Baidu appelle « Penser avec des Images » – une capacité qui permet à l’IA de zoomer dynamiquement sur des images pour examiner des détails fins, imitant la façon dont les humains abordent les tâches de résolution de problèmes visuels.

Le modèle prend en charge ce que Baidu décrit comme des capacités de « fixation visuelle » améliorées avec une « fixation plus précise et une exécution d’instructions flexible, déclenchant facilement des fonctions de fixation dans des scénarios industriels complexes », suggérant des applications potentielles dans la robotique, l’automatisation d’entrepôt et d’autres environnements où les systèmes d’IA doivent identifier et localiser des objets spécifiques dans des scènes visuelles.

Les affirmations de performance de Baidu suscitent un examen attentif alors que des tests indépendants restent en attente. L’assertion de Baidu selon laquelle le modèle surpasse les benchmarks de compréhension de documents et de graphiques de Google Gemini 2.5 Pro et d’OpenAI GPT-5-High a attiré l’attention sur les médias sociaux, bien que la vérification indépendante de ces affirmations soit en attente.

Baidu a publié le modèle sous la licence permissive Apache 2.0, permettant une utilisation commerciale illimitée – une décision stratégique qui contraste avec les approches de licence plus restrictives de certains concurrents et pourrait accélérer l’adoption par les entreprises.

Selon la documentation de Baidu, le modèle présente six capacités principales au-delà du traitement traditionnel du texte. En matière de raisonnement visuel, le système peut effectuer ce que Baidu décrit comme un « raisonnement multi-étapes, une analyse de graphiques et des capacités de raisonnement causal dans des tâches visuelles complexes », soutenues par ce que la société caractérise comme un « apprentissage par renforcement à grande échelle ».

Pour la résolution de problèmes STEM, Baidu affirme que « en exploitant ses puissantes capacités visuelles, le modèle réalise un bond en avant dans la performance sur des tâches STEM comme la résolution de problèmes à partir de photos ». La capacité de fixation visuelle permet au modèle d’identifier et de localiser des objets dans des images avec ce que Baidu caractérise comme une précision de qualité industrielle.

Pour la compréhension des vidéos, Baidu affirme que le modèle possède des « capacités exceptionnelles de conscience temporelle et de localisation d’événements, identifiant avec précision les changements de contenu à travers différents segments temporels dans une vidéo ». Enfin, la fonction Thinking with Images permet la fonctionnalité de zoom dynamique qui distingue ce modèle de ses concurrents.

Sous le capot, ERNIE-4.5-VL-28B-A3B-Thinking utilise une architecture Mixture-of-Experts (MoE) – un schéma de conception de plus en plus populaire pour la construction de systèmes d’IA à grande échelle et efficaces. Plutôt que d’activer les 28 milliards de paramètres pour chaque tâche, le modèle utilise un mécanisme de routage pour activer sélectivement uniquement les 3 milliards de paramètres les plus pertinents pour chaque entrée spécifique.

Cette approche offre des avantages pratiques substantiels pour les déploiements en entreprise. Selon la documentation de Baidu, le modèle peut fonctionner sur un seul GPU de 80 Go – un matériel facilement disponible dans de nombreux centres de données d’entreprise – le rendant beaucoup plus accessible que les systèmes concurrents qui peuvent nécessiter plusieurs accélérateurs haut de gamme.

La documentation technique révèle que Baidu a utilisé plusieurs techniques d’entraînement avancées pour atteindre les capacités du modèle. La société a utilisé « des techniques de renforcement multimodal de pointe sur des tâches vérifiables, intégrant des stratégies GSPO et IcePop pour stabiliser l’entraînement MoE combiné à un échantillonnage de difficulté dynamique pour une efficacité d’apprentissage exceptionnelle ».

Baidu note également que, en réponse à une « forte demande de la communauté », la société a « considérablement renforcé les performances de fixation du modèle avec des capacités améliorées de suivi des instructions ».

La nouvelle version s’inscrit dans l’écosystème d’IA multimodal ambitieux de Baidu. La famille ERNIE 4.5, dévoilée en juin 2025, comprend 10 variantes distinctes, dont des modèles Mixture-of-Experts allant du modèle phare ERNIE-4.5-VL-424B-A47B avec 424 milliards de paramètres totaux à un modèle dense compact de 0,3 milliard de paramètres.

Selon le rapport technique de Baidu sur la famille ERNIE 4.5, les modèles intègrent « une structure de modalité hétérogène novatrice, qui prend en charge le partage de paramètres entre les modalités tout en permettant également des paramètres dédiés pour chaque modalité individuelle ».

Ce choix architectural répond à un défi de longue date dans le développement de l’IA multimodale : former des systèmes sur des données visuelles et textuelles sans qu’une modalité ne dégrade les performances de l’autre. Baidu affirme que cette conception « a l’avantage d’améliorer la compréhension multimodale sans compromettre, voire en améliorant, les performances sur les tâches liées au texte ».

L’entreprise a rapporté avoir atteint une utilisation de 47 % des FLOPs du modèle (Model FLOPs Utilization) lors de la pré-formation de son plus grand modèle de langage ERNIE 4.5, en utilisant le framework d’apprentissage profond PaddlePaddle développé en interne.

Des outils de développement complets visent à simplifier le déploiement et l’intégration en entreprise. Pour les organisations souhaitant déployer le modèle, Baidu a publié une suite complète d’outils de développement via ERNIEKit, qu’elle décrit comme une « boîte à outils de développement de formation et de compression de qualité industrielle ».

Le modèle est entièrement compatible avec des frameworks open source populaires, y compris Hugging Face Transformers, vLLM (un moteur d’inférence hautes performances) et l’outil FastDeploy de Baidu. Ce support multiplateforme pourrait s’avérer crucial pour l’adoption en entreprise, permettant aux organisations d’intégrer le modèle dans leur infrastructure d’IA existante sans devoir changer de plateforme.

Le code source publié par Baidu montre un chemin d’implémentation relativement simple. En utilisant la bibliothèque Transformers, les développeurs peuvent charger et exécuter le modèle avec environ 30 lignes de code Python, selon la documentation sur Hugging Face.

Pour les déploiements en production nécessitant un débit plus élevé, Baidu fournit une intégration vLLM avec un support spécialisé pour les capacités de « raisonnement-parser » et « outils-call-parser » du modèle – des fonctionnalités qui permettent l’examen dynamique des images et l’intégration d’outils externes qui distinguent ce modèle des systèmes précédents.

L’entreprise propose également FastDeploy, une boîte à outils d’inférence propriétaire que Baidu affirme offrir des solutions de déploiement multi-hardware prêtes pour la production et faciles à utiliser, avec prise en charge de divers schémas de quantification qui peuvent réduire les besoins en mémoire et augmenter la vitesse d’inférence.

Cette sortie est un moment crucial sur le marché de l’IA en entreprise. Alors que les organisations passent des déploiements de chatbots expérimentaux vers des systèmes de production qui traitent des documents, analysent des données visuelles et automatisent des flux de travail complexes, la demande de modèles vision-langage capables et rentables s’est intensifiée.

Plusieurs cas d’utilisation en entreprise semblent particulièrement adaptés aux capacités du modèle. Le traitement de documents – l’extraction d’informations à partir de factures, de contrats et de formulaires – représente un marché énorme où une compréhension précise des graphiques et des tableaux se traduit directement par des économies grâce à l’automatisation. Le contrôle de qualité en fabrication, où les systèmes d’IA doivent détecter des défauts visuels, pourrait bénéficier des capacités de fixation du modèle. Les applications de service client qui traitent des images d’utilisateurs pourraient exploiter le raisonnement visuel multi-étapes.

Le profil d’efficacité du modèle peut s’avérer particulièrement attractif pour les organisations de taille moyenne et les start-ups qui manquent des budgets informatiques des grandes entreprises technologiques. En s’adaptant à un seul GPU de 80 Go – un matériel coûtant environ 10 000 à 30 000 dollars selon le modèle spécifique – le système devient économiquement viable pour un public beaucoup plus large que les modèles nécessitant des configurations multi-GPU coûtant des centaines de milliers de dollars.

La licence Apache 2.0 abaisse encore les barrières à l’adoption. Contrairement aux modèles publiés sous des licences plus restrictives qui peuvent limiter l’utilisation commerciale ou exiger un partage des revenus, les organisations peuvent déployer ERNIE-4.5-VL-28B-A3B-Thinking dans des applications de production sans frais de licence continus ou restrictions d’utilisation.

La sortie de Baidu intensifie la concurrence dans l’espace des modèles vision-langage, où Google, OpenAI, Anthropic et des entreprises chinoises comme Alibaba et ByteDance ont tous publié des systèmes capables ces derniers mois.

Les affirmations de performance de l’entreprise – si elles sont validées par des tests indépendants – représenteraient une réalisation significative. Les modèles beaucoup plus grands de Google Gemini 2.5 Pro et d’OpenAI GPT-5-High sont soutenus par les ressources profondes de deux des entreprises technologiques les plus précieuses au monde. Le fait qu’un modèle plus compact, disponible en open source, puisse égaler voire dépasser leurs performances sur des tâches spécifiques suggère que le domaine avance plus rapidement que certains analystes ne l’avaient anticipé.

Cependant, certains observateurs ont conseillé de la prudence concernant les comparaisons de benchmarks. « Il est fascinant de voir comment les modèles multimodaux évoluent, surtout avec des fonctionnalités comme ‘Penser avec des Images’, » a écrit un utilisateur, « Cela dit, je suis curieux de savoir si l’avantage de ERNIE-4.5 sur des concurrents comme Gemini-2.5-Pro et GPT-5-High réside principalement dans des cas d’utilisation spécifiques comme la compréhension de documents et de graphiques plutôt que dans des tâches de vision générales. »

Les analystes de l’industrie notent que les performances des benchmarks ne capturent souvent pas le comportement réel dans les scénarios diversifiés auxquels les entreprises sont confrontées. Un modèle qui excelle dans la compréhension des documents peut avoir du mal avec des tâches visuelles créatives ou une analyse vidéo en temps réel. Les organisations évaluant ces systèmes mènent généralement des tests internes approfondis sur des charges de travail représentatives avant de s’engager dans des déploiements en production.

Malgré ses capacités, le modèle est confronté à plusieurs défis techniques communs aux grands systèmes vision-langage. L’exigence minimale de 80 Go de mémoire GPU, bien que plus accessible que certains concurrents, représente toujours un investissement en infrastructure significatif. Les organisations sans infrastructure GPU existante devraient acquérir du matériel spécialisé ou compter sur des services de cloud computing, introduisant des coûts opérationnels continus.

La fenêtre de contexte du modèle – la quantité d’information textuelle et visuelle qu’il peut traiter simultanément – est indiquée comme étant de 128K tokens dans la documentation de Baidu. Bien que substantielle, cela pourrait s’avérer limitant pour certains scénarios de traitement de documents impliquant des manuels techniques très longs ou des contenus vidéo étendus.

Des questions subsistent également sur le comportement du modèle face aux entrées adverses, aux données hors distribution et aux cas limites. La documentation de Baidu ne fournit pas d’informations détaillées sur les tests de sécurité, l’atténuation des biais ou les modes de défaillance – des considérations de plus en plus importantes pour les déploiements en entreprise où des erreurs pourraient avoir des implications financières ou de sécurité.

Pour les décideurs techniques évaluant le modèle, plusieurs facteurs d’implémentation méritent d’être pris en compte au-delà des simples indicateurs de performances bruts.

L’architecture MoE du modèle, bien qu’efficace pendant l’inférence, ajoute de la complexité au déploiement et à l’optimisation. Les organisations doivent s’assurer que leur infrastructure peut correctement router les entrées vers les sous-réseaux d’experts appropriés – une capacité non universellement prise en charge sur toutes les plates-formes de déploiement.

La fonction « Penser avec des Images », bien qu’innovante, nécessite une intégration avec des outils de manipulation d’images pour atteindre son plein potentiel. La documentation de Baidu suggère que cette fonctionnalité fonctionne mieux « en association avec des outils de zoom et de recherche d’images », ce qui implique que les organisations pourraient devoir construire une infrastructure supplémentaire pour exploiter pleinement cette fonctionnalité.

Les capacités de compréhension de la vidéo du modèle, bien mises en avant dans les supports marketing, viennent avec des contraintes pratiques. Le traitement vidéo nécessite beaucoup plus de ressources de calcul que les images statiques, et la documentation ne spécifie pas la longueur maximale des vidéos ou les fréquences d’images optimales.

Les organisations envisageant le déploiement devraient également évaluer l’engagement continu de Baidu envers le modèle. Les modèles d’IA open source nécessitent une maintenance continue, des mises à jour de sécurité et une éventuelle reformation à mesure que les distributions de données évoluent dans le temps. Bien que la licence Apache 2.0 garantisse la disponibilité continue du modèle, les améliorations futures et le support dépendent des priorités stratégiques de Baidu.

La réaction initiale de la communauté de recherche et de développement en IA a été prudente mais optimiste. Les développeurs ont demandé des versions du modèle dans des formats supplémentaires, notamment le GGUF (un format de quantification populaire pour un déploiement local) et le MNN (un cadre de réseau neuronal mobile), suggérant un intérêt pour l’exécution du système sur des appareils à ressources limitées.

D’autres développeurs ont salué les choix techniques de Baidu tout en demandant des ressources supplémentaires. « Modèle fantastique ! Avez-vous utilisé des découvertes de PaddleOCR ? » a demandé un utilisateur, faisant référence à l’outil de reconnaissance optique de caractères open source de Baidu.

Le nom long du modèle – ERNIE-4.5-VL-28B-A3B-Thinking – a suscité des comment

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici