jeu 5 février 2026
AccueilIntelligence artificielleLe super-IA ERNIE de Baidu défie GPT et Gemini

Le super-IA ERNIE de Baidu défie GPT et Gemini

Date:

Ceci pourrait vous plaire




Arcane Visions - Thème astral

Le dernier modèle ERNIE de Baidu, un super efficace AI multimodal, surpasse GPT et Gemini sur des benchmarks clés et cible les données d’entreprise souvent ignorées par les modèles axés sur le texte.

Pour de nombreuses entreprises, des informations précieuses sont verrouillées dans des schémas d’ingénierie, des flux vidéo sur le terrain, des scans médicaux et des tableaux de bord logistiques. Le nouveau modèle de Baidu, ERNIE-4.5-VL-28B-A3B-Thinking, est conçu pour combler cette lacune.

Ce qui intéresse les architectes d’entreprise n’est pas seulement sa capacité multimodale, mais aussi son architecture. Il est décrit comme un modèle « léger », n’activant que trois milliards de paramètres lors de son fonctionnement. Cette approche cible les coûts élevés d’inférence qui freinent souvent les projets de mise à l’échelle de l’IA. Baidu mise sur l’efficacité comme voie d’adoption, formant le système comme une base pour des « agents multimodaux » capables de raisonner et d’agir, pas seulement de percevoir.

Les capacités d’analyse de données visuelles complexes prises en charge par les benchmarks AI

Le modèle AI multimodal ERNIE de Baidu excelle dans le traitement de données denses, non textuelles. Par exemple, il peut interpréter un graphique de « Rappel des heures de pointe » pour trouver les heures de visite optimales, une tâche qui reflète les défis de planification des ressources en logistique ou en vente au détail.

ERNIE 4.5 montre également des capacités dans des domaines techniques, comme la résolution d’un schéma de circuit de pont en appliquant les lois d’Ohm et de Kirchhoff. Pour les départements de R&D et d’ingénierie, un assistant futur pourrait valider des conceptions ou expliquer des schémas complexes aux nouveaux employés.

Cette capacité est soutenue par les benchmarks de Baidu, qui montrent qu’ERNIE-4.5-VL-28B-A3B-Thinking surpasse des concurrents comme GPT-5-High et Gemini 2.5 Pro sur certains tests clés.

Il est important de noter, bien sûr, que les benchmarks AI fournissent un guide mais peuvent être biaisés. Effectuez toujours des tests internes pour vos besoins avant de déployer un modèle AI pour des applications critiques.

Baidu passe de la perception à l’automatisation avec son dernier modèle AI ERNIE

Le principal défi pour l’IA d’entreprise est de passer de la perception (« qu’est-ce que c’est ? ») à l’automatisation (« que faire maintenant ? »). ERNIE 4.5 prétend répondre à cela en intégrant l’ancrage visuel à l’utilisation d’outils.

Demander à l’AI multimodal de trouver toutes les personnes portant des costumes sur une image et de renvoyer leurs coordonnées au format JSON fonctionne. Le modèle génère les données structurées, une fonction facilement transférable à une chaîne de production pour une inspection visuelle ou à un système auditeur d’images de site pour la conformité de sécurité.

Le modèle gère également des outils externes et peut zoomer automatiquement sur une photographie pour lire du petit texte. S’il rencontre un objet inconnu, il peut déclencher une recherche d’images pour l’identifier. Il s’agit d’une forme d’IA moins passive qui pourrait permettre à un agent non seulement de signaler une erreur de centre de données, mais aussi de zoomer sur le code, de rechercher la base de connaissances interne et de suggérer la correction.

Déverrouiller l’intelligence commerciale avec l’AI multimodal

Le dernier modèle AI ERNIE de Baidu cible également les archives vidéo d’entreprise, des sessions de formation aux réunions en passant par les vidéos de sécurité. Il peut extraire tous les sous-titres à l’écran et les associer à leurs timestamps précis.

Il démontre également une conscience temporelle, trouvant des scènes spécifiques (comme celles « filmées sur un pont ») en analysant des indices visuels. L’objectif final est de rendre les vastes bibliothèques vidéo interrogeables, permettant à un employé de trouver le moment exact où un sujet spécifique a été abordé dans un webinaire de deux heures pendant lequel il a pu somnoler quelques fois.

Baidu fournit des conseils de déploiement pour plusieurs voies, y compris les transformateurs, vLLM et FastDeploy. Cependant, les exigences matérielles sont un obstacle majeur. Un déploiement sur une seule carte nécessite 80 Go de mémoire GPU. Il ne s’agit pas d’un outil pour des expérimentations occasionnelles, mais pour des organisations disposant d’une infrastructure AI existante et performante.

Pour ceux qui ont le matériel, le kit d’outils ERNIEKit de Baidu permet un ajustement fin sur des données propriétaires ; une nécessité pour la plupart des cas d’utilisation à forte valeur ajoutée. Baidu propose son dernier modèle AI ERNIE avec une licence Apache 2.0 qui permet une utilisation commerciale, ce qui est essentiel pour l’adoption.

Le marché évolue enfin vers une AI multimodale capable de voir, lire et agir dans un contexte commercial spécifique, et les benchmarks suggèrent qu’il le fait avec une capacité impressionnante. La tâche immédiate est d’identifier les tâches de raisonnement visuel à forte valeur ajoutée au sein de votre propre activité et de les comparer aux coûts matériels et de gouvernance substantiels.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici