Le démarrage du matériel d’IA Cérébras a introduit une nouvelle solution d’inférence d’IA qui pourrait concurrencer les offres GPU de Nvidia pour les entreprises.
L’outil d’inférence de Cerebras repose sur le moteur Wafer-Scale Engine de la société et promet des performances impressionnantes. Selon des sources, il a atteint des vitesses de 1 800 jetons par seconde pour Llama 3.1 8B et de 450 jetons par seconde pour Llama 3.1 70B. Cerebras affirme que ces vitesses sont non seulement supérieures à celles des produits cloud hyperscale habituels nécessaires pour générer ces systèmes avec les GPU de Nvidia, mais qu’elles sont également plus rentables.
Ce développement majeur s’inscrit dans le contexte d’un changement sur le marché de l’IA générative, comme l’a souligné l’analyste de Gartner, Arun Chandrasekaran. Alors que ce marché était autrefois axé sur la formation, il se concentre désormais sur le coût et la vitesse de l’inférence. Cette évolution, due à la croissance des cas d’utilisation de l’IA dans les entreprises, offre une opportunité aux fournisseurs de produits et services d’IA comme Cerebras de rivaliser sur la base des performances.
Les tests d’inférence d’IA de Cerebras ont été très concluants, avec des mesures dépassant les 1 800 jetons de sortie par seconde sur Llama 3.1 8B et plus de 446 jetons de sortie par seconde sur Llama 3.1 70B, établissant ainsi de nouveaux records dans les deux benchmarks.
Cependant, malgré les avantages potentiels en termes de performances, Cerebras doit relever des défis importants sur le marché des entreprises. La pile logicielle et matérielle de Nvidia domine le secteur et est largement adoptée par les entreprises. La question clé est de savoir si les entreprises sont prêtes à adapter leurs processus d’ingénierie pour fonctionner avec le système de Cerebras, même s’il peut offrir des performances élevées à un coût inférieur à celui de Nvidia.
Le choix entre Nvidia et des alternatives comme Cerebras dépend de plusieurs facteurs, notamment de l’ampleur des opérations et du capital disponible. Les petites entreprises choisiront probablement Nvidia en raison de ses solutions établies, tandis que les grandes entreprises disposant de plus de capital peuvent opter pour Cerebras pour accroître leur efficacité et réduire leurs coûts.
Alors que le marché du matériel d’IA continue d’évoluer, Cerebras sera confronté à la concurrence de fournisseurs de cloud spécialisés, d’hyperscalers comme Microsoft, AWS et Google, et de fournisseurs d’inférence dédiés comme Groq. L’équilibre entre performances, coût et facilité de mise en œuvre devrait influencer les décisions des entreprises en matière d’adoption de nouvelles technologies d’inférence.
L’émergence de l’inférence d’IA à haut débit, capable de dépasser 1 000 jetons par seconde, ouvre de nouvelles perspectives pour les applications d’IA. La précision de 16 bits de Cerebras et ses capacités d’inférence plus rapides pourraient permettre la création de futures applications d’IA nécessitant des agents d’IA fonctionnant rapidement, de manière répétée et en temps réel.
En raison de la croissance du domaine de l’IA, le marché du matériel d’inférence d’IA est en expansion, représentant environ 40 % du marché total du matériel d’IA. Ce segment devient de plus en plus attractif pour de nouvelles entreprises, qui devront analyser attentivement ce paysage concurrentiel compétitif et les ressources nécessaires pour naviguer dans cet espace.
Pour en savoir plus sur l’IA et le Big Data auprès des leaders du secteur, rendez-vous au Salon de l’IA et du Big Data à Amsterdam, en Californie et à Londres, co-localisé avec d’autres événements majeurs tels que la Conférence sur l’automatisation intelligente, BlocX, la Semaine de la transformation numérique et le Salon de la cybersécurité et du cloud. Consultez également les autres événements et webinaires technologiques d’entreprise à venir proposés par TechForge.