Cisco se lance dans une course de plus en plus compétitive pour dominer la technologie d’interconnexion des centres de données IA, devenant ainsi le dernier grand acteur à dévoiler du matériel de routage spécialement conçu pour connecter des charges de travail IA distribuées à travers plusieurs installations.
Le géant des réseaux a dévoilé son système de routage 8223 le 8 octobre, introduisant ce qu’il prétend être le premier routeur fixe de 51,2 téraoctets par seconde spécifiquement conçu pour relier les centres de données exécutant des charges de travail IA.
Au cœur de ce système se trouve le nouveau processeur Silicon One P200, représentant la réponse de Cisco à un défi qui limite de plus en plus l’industrie de l’IA : que se passe-t-il lorsque vous manquez d’espace pour croître.
Pour contextualiser, Cisco n’est pas seul à reconnaître cette opportunité. Broadcom a lancé les hostilités mi-août avec ses puces de commutation/routage « Jericho 4 » StrataDNX, qui ont commencé à être échantillonnées et offraient également 51,2 Tb/sec de bande passante agrégée soutenue par une mémoire HBM pour un tamponnage de paquets profond afin de gérer la congestion.
Deux semaines après l’annonce de Broadcom, Nvidia a dévoilé son réseau à grande échelle Spectrum-XGS, un nom particulièrement impertinent étant donné que les ASIC de commutation « Trident » et « Tomahawk » de Broadcom appartiennent à la famille StrataXGS.
Nvidia a assuré CoreWeave en tant que client pilote mais a fourni des détails techniques limités sur les ASICs Spectrum-XGS. Maintenant, Cisco déploie ses propres composants pour le marché de la mise en réseau à grande échelle, créant une compétition à trois voies entre les poids lourds des réseaux.
Pour comprendre pourquoi plusieurs fournisseurs se précipitent dans cet espace, il faut considérer l’ampleur de l’infrastructure IA moderne. La formation de grands modèles de langage ou l’exécution de systèmes IA complexes nécessite des milliers de processeurs puissants travaillant ensemble, générant d’énormes quantités de chaleur et consommant des quantités massives d’électricité.
Les centres de données atteignent des limites strictes, non seulement en termes d’espace disponible, mais également en termes de quantité d’énergie qu’ils peuvent fournir et refroidir.
« L’informatique IA dépasse la capacité même du plus grand centre de données, ce qui entraîne la nécessité d’une connexion fiable et sécurisée des centres de données situés à des centaines de kilomètres les uns des autres », a déclaré Martin Lund, vice-président exécutif du groupe matériel commun de Cisco.
Traditionnellement, l’industrie a abordé les défis de capacité par deux approches : l’extension (ajout de capacité à des systèmes individuels) ou la mise en réseau (connexion de plus de systèmes au sein de la même installation).
Mais les deux stratégies atteignent leurs limites. Les centres de données manquent d’espace physique, les réseaux électriques ne peuvent pas fournir suffisamment d’électricité, et les systèmes de refroidissement ne peuvent pas dissiper la chaleur assez rapidement.
Cela force une troisième approche : « l’extension », distribuant les charges de travail IA sur plusieurs centres de données qui pourraient être dans différentes villes ou même différents États. Cependant, cela crée un nouveau problème : les connexions entre ces installations deviennent des goulots d’étranglement critiques.
Les charges de travail IA se comportent différemment du trafic habituel des centres de données. Les formations génèrent des modèles de trafic massifs et saccadés – des périodes de mouvement intense de données suivies de moments de relative tranquillité. Si le réseau connectant les centres de données ne peut pas absorber ces pics, tout ralentit, gaspillant des ressources informatiques coûteuses et, surtout, du temps et de l’argent.
L’équipement de routage traditionnel n’a pas été conçu pour cela. La plupart des routeurs privilégient soit la vitesse brute, soit la gestion sophistiquée du trafic, mais peinent à offrir les deux simultanément tout en maintenant une consommation d’énergie raisonnable. Pour les applications d’interconnexion de centres de données IA, les organisations ont besoin des trois : vitesse, tamponnage intelligent et efficacité.
Le système 8223 de Cisco représente un changement par rapport à l’équipement de routage généraliste. Logé dans un châssis compact de trois unités de rack, il offre 64 ports de connectivité de 800 gigabits, actuellement la densité la plus élevée disponible dans un système de routage fixe. Plus important encore, il peut traiter plus de 20 milliards de paquets par seconde et scaler jusqu’à trois exaoctets par seconde de bande passante d’interconnexion.
La caractéristique distinctive du système est sa capacité de tamponnage profond, rendue possible par la puce P200. Imaginez les tampons comme des zones de stockage temporaires pour les données – comme un réservoir qui recueille l’eau pendant une forte pluie. Lorsque l’entraînement IA génère des pics de trafic, les tampons du 8223 absorbent la pointe, empêchant la congestion du réseau qui ralentirait autrement les clusters de GPU coûteux en attente de données.
L’efficacité énergétique est un autre avantage crucial. En tant que système 3RU, le 8223 atteint ce que Cisco décrit comme une « efficacité énergétique de type commutateur » tout en maintenant des capacités de routage – crucial lorsque les centres de données sont déjà soumis à des contraintes budgétaires en matière d’électricité.
Le système prend également en charge les optiques cohérentes 800G, permettant des connexions sur une distance allant jusqu’à 1 000 kilomètres entre les installations – essentiel pour la distribution géographique de l’infrastructure IA.
Les principaux hyperscalers déploient déjà la technologie. Microsoft, utilisateur précoce de Silicon One, a trouvé l’architecture précieuse pour plusieurs cas d’utilisation.
Dave Maltz, membre technique et vice-président corporate de l’Azure Networking chez Microsoft, a souligné que « l’architecture ASIC commune nous a facilité l’extension de nos cas d’utilisation initiaux à plusieurs rôles dans les centres de données, le WAN et les environnements IA/ML ».
Alibaba Cloud prévoit d’utiliser le P200 comme base pour étendre son architecture eCore. Dennis Cai, vice-président et responsable de l’infrastructure réseau chez Alibaba Cloud, a déclaré que la puce « nous permettra de nous étendre dans le réseau central, remplaçant les routeurs traditionnels basés sur châssis par un cluster d’appareils alimentés par P200 ».
Lumen explore également la manière dont la technologie s’intègre dans ses plans d’infrastructure réseau. Dave Ward, directeur de la technologie et directeur des produits chez Lumen, a déclaré que la société « étudie la manière dont la nouvelle technologie Cisco 8223 pourrait s’intégrer dans nos plans pour améliorer les performances du réseau et déployer des services supérieurs à nos clients ».
Un aspect souvent négligé de l’infrastructure d’interconnexion des centres de données IA est l’adaptabilité. Les besoins de mise en réseau IA évoluent rapidement, avec l’émergence régulière de nouveaux protocoles et normes.
Les matériels traditionnels nécessitent généralement un remplacement ou des mises à niveau coûteuses pour prendre en charge de nouvelles capacités. La programmabilité du P200 répond à ce défi.
Les organisations peuvent mettre à jour le silicium pour prendre en charge de nouveaux protocoles sans remplacer le matériel – important lorsque les systèmes de routage individuels représentent des investissements en capital significatifs et les normes de mise en réseau IA restent en évolution.
Connecter des centres de données distants de centaines de kilomètres présente des défis en termes de sécurité. Le 8223 inclut un cryptage à débit en utilisant des algorithmes résistants aux menaces futures de l’ordinateur quantique.
L’intégration avec les plates-formes d’observabilité de Cisco fournit une surveillance détaillée du réseau pour identifier et résoudre rapidement les problèmes.
Avec Broadcom et Nvidia déjà revendiquant leur part du marché de la mise en réseau à grande échelle, Cisco est confronté à une concurrence établie. Cependant, l’entreprise apporte des avantages : une présence de longue date dans les réseaux d’entreprise et de fournisseurs de services, le portefeuille mature de Silicon One lancé en 2019, et des relations avec les principaux hyperscalers déjà utilisant sa technologie.
Le 8223 est initialement expédié avec la prise en charge open-source SONiC, IOS XR étant prévu pour une disponibilité future. Le P200 sera disponible sur plusieurs types de plateformes, y compris les systèmes modulaires et le portfolio Nexus.
Cette flexibilité dans les options de déploiement pourrait s’avérer décisive alors que les organisations cherchent à éviter le verrouillage du fournisseur tout en développant une infrastructure IA distribuée.
Que l’approche de Cisco devienne la norme de l’industrie pour l’interconnexion des centres de données IA reste à voir, mais le problème fondamental auquel les trois fournisseurs s’attaquent – la connexion efficace de l’infrastructure IA distribuée – deviendra de plus en plus pressant à mesure que les systèmes IA continueront à dépasser les limites d’une seule installation.
Le véritable gagnant sera finalement déterminé non seulement par les spécifications techniques, mais aussi par le fournisseur qui pourra offrir l’écosystème le plus complet de logiciels, de support et de capacités d’intégration autour de son silicium.


