lun 2 février 2026
AccueilIntelligence artificielleCommand A Vision: Révolutionner l'analyse visuelle pour les entreprises

Command A Vision: Révolutionner l’analyse visuelle pour les entreprises

Date:

Ceci pourrait vous plaire




Arcane Visions - Thème astral

L’avènement des fonctionnalités de recherche en profondeur et d’autres analyses alimentées par l’IA a donné lieu à davantage de modèles et de services cherchant à simplifier ce processus et à lire davantage des documents réellement utilisés par les entreprises.

La société canadienne d’IA Cohere mise sur ses modèles, y compris un modèle visuel récemment publié, pour faire valoir que les fonctionnalités de recherche en profondeur devraient également être optimisées pour les cas d’utilisation des entreprises.

La société a lancé Command A Vision, un modèle visuel ciblant spécifiquement les cas d’utilisation des entreprises, construit sur la base de son modèle Command A. Le modèle de 112 milliards de paramètres peut « débloquer des informations précieuses à partir de données visuelles, et prendre des décisions hautement précises et basées sur les données grâce à la reconnaissance optique de caractères de documents (OCR) et à l’analyse d’images », affirme la société.

Cela signifie que Command A Vision peut lire et analyser les types d’images les plus courants dont les entreprises ont besoin : graphiques, tableaux, diagrammes, documents numérisés et PDF.

Puisque Command A Vision est construit sur l’architecture de Command A, il nécessite deux GPU ou moins, tout comme le modèle de texte. Le modèle de vision conserve également les capacités de texte de Command A pour lire les mots sur les images et comprend au moins 23 langues. Cohere a déclaré que, contrairement à d’autres modèles, Command A Vision réduit le coût total de possession pour les entreprises et est entièrement optimisé pour les cas d’utilisation de récupération pour les entreprises.

Cohere a déclaré qu’il suivait une architecture Llava pour construire ses modèles Command A, y compris le modèle visuel. Cette architecture transforme les caractéristiques visuelles en jetons visuels mous, qui peuvent être divisés en différentes tuiles.

Ces tuiles sont passées dans la tour de texte Command A, « un LLM textuel dense de 111B paramètres », a déclaré la société. « De cette manière, une seule image consomme jusqu’à 3 328 jetons. »

Cohere a déclaré qu’il avait formé le modèle visuel en trois étapes : alignement vision-langage, fine-tuning supervisé (SFT) et renforcement post-formation avec feedback humain (RLHF).

« Benchmark tests ont montré que Command A Vision surpassait les autres modèles ayant des capacités visuelles similaires. »

Command A Vision a surpassé les autres modèles dans des tests tels que ChartQA, OCRBench, AI2D et TextVQA. Globalement, Command A Vision a obtenu un score moyen de 83,1 % contre 78,6 % pour GPT 4.1, 80,5 % pour Llama 4 Maverick et 78,3 % pour Mistral Medium 3.

La plupart des grands modèles de langage (LLM) de nos jours sont multimodaux, ce qui signifie qu’ils peuvent générer ou comprendre des médias visuels comme des photos ou des vidéos. Cependant, les entreprises utilisent généralement plus de documents graphiques tels que des graphiques et des PDF, donc extraire des informations de ces sources de données non structurées s’avère souvent difficile.

Avec la montée en puissance de la recherche en profondeur, l’importance d’intégrer des modèles capables de lire, d’analyser et même de télécharger des données non structurées a augmenté.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici