Des de l'escala/l'escala fins a l'escala: espectre - xgs és l'elecció inevitable

Sep 25, 2025

Deixa un missatge

Els centres actuals de dades AI s’enfronten a dos colls d’ampolla de nucli en l’escala, i l’escala tradicional - UP i Scale - fora de joc estan lluitant per satisfer Giga - escala AI exigeix:

Escala - limitacions amunt: Aconseguit actualitzant sistemes o bastidors simples (per exemple, augmentar el recompte de GPU o millorar el rendiment del dispositiu únic-), però restringit pels sostres de potència de la infraestructura com el refredament d’aigua. Els centres de dades existents tenen llindars físics per a l’entrada de potència i la dissipació de calor, evitant un augment infinit de la densitat de càlcul per rack o centre de dades.

Escala - limitacions: Expandit afegint bastidors i servidors a escales de clústers, però limitats per l’espai físic en un sol recinte, imposant taps durs a la capacitat dels equips.

Per superar aquest dilema, NVIDIA proposa la nova dimensió de "Escala - a través", optimitzant la comunicació de xarxa entre centres de dades dispersos geogràficament per fer que els clústers de IA distribuïts col·laborin com a un. El fundador i conseller delegat de NVIDIA, Jensen Huang, descriu aquesta Super Fàbrica regional AI Cross - com a infraestructura clau per a la revolució industrial de l'AI, amb Spectrum - XGS com a tecnologia bàsica.

Spectrum-XGS

Core Technologies of Spectrum - xgs

Spectrum - XGS no és una plataforma de maquinari completament nova, sinó una evolució de l'espectre existent de Nvidia - x ecosistema Ethernet. Des del seu llançament de 2024, Spectrum - x ha lliurat 1,6X un rendiment de xarxa generatiu superior generatiu que l’ethernet tradicional a través de l’espectre - 4 SN5600 Switches de l’arquitectura i Bluefield - 3 DPU, convertint -se en l’elecció principal dels centres de dades AI que utilitzen NVIDIA GPUS. L’avanç de Spectrum-XGS rau en tres innovacions algorítmiques i sinergies de maquinari que aborden els reptes de la latència de la comunicació, la congestió i la sincronització en els grups de GPU transversals.

1.Core algoritmes: adaptació dinàmica a Long - Característiques de la xarxa de distància

Spectrum-XGS's core is a set of "distance-aware network optimization algorithms" that analyze key parameters of cross-data-center communication in real-time (distance, traffic patterns, congestion levels, performance metrics) and dynamically adjust network policies:

Distància - Control de congestió adaptativa:A diferència del tractament uniforme tradicional de Ethernet de totes les connexions, els algorismes XGS Spectrum - XGS ajusten automàticament els llindars de congestió basats en distàncies reals entre centres de dades (actualment donen suport a desplegaments fins a centenars de quilòmetres), evitant la pèrdua de paquets o la acumulació en transmissions de distància llargues -.

Gestió de latència precisa:Mitjançant per - Packet Fine - Enrutament adaptatiu de gra, elimina la trepidant de la retransmissions de paquets a les xarxes tradicionals. Jitter és un perill crític en els clústers d’AI: si una sola GPU es queda a causa d’un retard, totes les GPU col·laboradores han d’esperar, afectant directament el rendiment global.

End - a - Telemetry End: Real - Col·lecció de temps de Full - Dades de rendiment de l'enllaç de GPUs a Switches i creuar - dades - Els enllaços del centre proporcionen milisegond {{4} de retroalimentació de nivell per a ajustaments algorítmics, assegurant la concordança dinàmica de l'estat de la xarxa a les demandes de càrrega de treball.

2. Synergies de maquinari: Aprofitament de l'espectre - X High - Fundació d'amplada de banda

Spectrum - XGS aconsegueix un rendiment òptim quan es combina amb el maquinari NVIDIA específic:

Spectrum - x commutadors: Com a columna vertebral de xarxa subjacent, proporcionant una alta densitat del port i baixa - reenviament de latència.

ConnectX-8 Supernic: 800 GB/S AI - Adaptador de xarxa dedicat per a High - Transferència de dades de velocitat entre GPU i commutadors.

Hardware Blackwell Architecture: Com ara Superchips GPU B200 i GB10, profundament integrat amb Spectrum - xgs per reduir el final - a - latència final. NVIDIA Valida a través de NCCL (Library Collective Communications) Benchmarks: Spectrum - XGS augmenta el rendiment de la comunicació entre la creu - dades - Centre GPU per 1,9x mentre controla l'extrem Se sent sensible i lag - gratuït per a les interaccions de l'usuari, complint requisits de temps reals - per a la inferència AI.

Full - Optimització de la pila per a l'entrenament i l'eficiència d'inferència amb espectre - xgs

Spectrum - XGS no és una tecnologia aïllada, sinó una addició clau al complet - pila AI Ecosistema. En aquesta versió, NVIDIA també va revelar el programari - millores de rendiment de nivell que sinergitzen amb Spectrum - XGS per a Hardware - algorithm - col·laboració de programari:

Actualització del programari Dynamo: Optimitzat per a l'arquitectura de Blackwell (per exemple, sistemes B200) per augmentar el rendiment de la inferència del model AI fins a 4x, reduint significativament el consum de càlcul per a una gran inferència del model.

Tecnologia de descodificació especulativa: Utilitza un model petit d’esborrany per predir el següent testimoni de la sortida del model d’AI principal amb antelació, reduint el càlcul del model principal i la millora del rendiment d’inferència en un 35%addicional. Això és especialment adequat per a escenaris d’inferència de conversa en models de gran llenguatge (LLMS).

El director de departament informàtic de NVIDIA, Dave Salvator, va declarar que l’objectiu principal d’aquestes optimitzacions és escalar aplicacions ambicioses d’AI. Tant si es tracta de trilions de formació - models grans com si donen suport a serveis d’inferència d’AI per a milions d’usuaris simultanis, la combinació d’espectre - XGS i l’ecosistema de programari proporciona un rendiment previsible.

Aplicacions primerenques i impacte de la indústria de l’espectre - xgs

Primers usuaris: Coreweave Pioneers creu - domini Ai Super FactoryEl proveïdor de serveis de núvols GPU Coreweave és un dels primers adoptants de Spectrum - xgs. El fundador Co - de la companyia i CTO Peter Salanki van assenyalar que aquesta tecnologia permetrà als seus clients accedir a les capacitats AI a escala Giga -, accelerant els avenços a les indústries. Per exemple, suportant Ultra - gran - Projectes AI com la iniciativa Stargate d'Oracle, SoftBank i OpenAi.

Tendències de la indústria: Ethernet substituint Infiniband com a xarxa AI MainstreamTot i que Infiniband va celebrar prop del 80% del mercat de la xarxa de backend de l'AI el 2023, la indústria es dirigeix ​​ràpidament a Ethernet. L’elecció de NVIDIA per desenvolupar Spectrum - xgs a Ethernet s’alinea amb aquesta tendència:

Compatibilitat i avantatges de costos:Ethernet és l’estàndard universal per a centres de dades globals, més familiars per als enginyers de xarxa i més barats de desplegar que Infiniband.

Projeccions a escala de mercat:Les dades del grup Dell'oro mostren que el mercat de commutadors del centre de dades Ethernet arribarà a prop de 80 milions de dòlars durant els propers cinc anys.

El propi creixement de Nvidia: 650 Informes del grup indiquen NVIDIA com el "més ràpid - Vendor en creixement" al mercat de commutador del centre de dades de 2024, amb els ingressos empresarials de xarxa que van arribar a 5.000 milions de dòlars a Q 2 2024 (que finalitzen el 27 d'abril), un 56% de l'any - sobre - any.

El llançament de Spectrum - XGS estén l'estratègia completa de Nvidia - Stack Monopoly en la infraestructura AI, alhora que provoca una nova dinàmica competitiva:

Disseny de pila de NVIDIA complet -: From GPUs (Blackwell), interconnects (NVLink/NVLink Switch), networks (Spectrum-X/Spectrum-XGS, Quantum-X InfiniBand) to software (CUDA, TensorRT-LLM, NIM microservices), NVIDIA has formed Un bucle tancat que cobreix "Compute - Connect - programari" per a la infraestructura AI. Spectrum - xgs sinergitza amb nvlink per a tres - level scaling: intra - rack (nvlink), intra - dades - centre (espectre {{12} x) i i i- Cross - dades - Centre (Spectrum - xgs).

Respostes dels competidors: La tecnologia anterior de Broadcom comparteix objectius similars amb Spectrum - XGS, amb l'objectiu d'optimitzar el rendiment Ethernet per tancar el buit amb Infiniband. A més, venedors com Arista, Cisco i Marvell estan accelerant ai - commutadors dedicats Ethernet, amb la competència centrada en el rendiment - cost - compatibilitat ecosistema.

El valor bàsic de Spectrum - XGS rau en empènyer l'escalació del centre de dades AI de "Single - restriccions del lloc" a "creu - col·laboració regional." A mesura que la potència i la terra es converteixen en límits durs per als centres de dades simples, creuar - City i Cross - Country Ai Super Fàbriques es convertiran en la forma principal que recolza les aplicacions AI de generació de generació (per exemple, intel·ligència artificial general, gran - escala de clústers d'agents).

Com que el vicepresident sènior del departament de xarxa de NVIDIA, Gilad Shainer, es va veure a la conferència de chips calents: "Cross - dades - Les xarxes físiques de fibra òptica del centre han existit des de fa temps, però els algoritmes de programari com Spectrum - són la clau per desbloquejar el veritable rendiment d'aquestes infrastructures físiques."