几种算力芯片超节点内互联技术的比较

发布者:驿路通
时间:2025-10-30
收藏
已收藏

引  言

近年来各种GPU和TPU/NPU/XPU/ASIC等算力芯片都需要组成大规模的高带宽域,即超节点来应对大模型应用的需求,特别是GPU scale-up网络需要大节点数、高带宽、低延迟、低成本这四个互相牵制的要求,目前各种互联技术都难以同时满足,在摩尔定理变缓的当下这已成为业内难题。

  1、以太网超节点

  以太网交换是目前最成熟、应用范围最广的一种网络互联技术,用以太交换组成算力芯片超节点的技术路线具有技术成熟,易于引入成熟的以太光模块实现柜间光互联,突破电互联的单柜限制,降低对单柜供电散热的要求,小芯片即可组成大网络等优点[1]。见表1,博通也推出了SUE(Scale Up Ethernet)方案,并尽力降低标准以太网的延迟[2],这两种互联方案分别针对NPU/XPU等算力芯片,对于网络性能要求更高的GPU倾向于采用其它更低延迟的技术方案。

表1、 几种算力芯片超节点内互联技术的比较

图片


目前,所谓的光交换实际上只能完成物理层的工作,因为光没有SRAM和纯光逻辑器件,不可能在光域独立完成完整的包交换,各种光交换技术必须由电交换芯片配合,两者不是替代关系,光交换只能在网络顶层,即两层网络的Spine层,或三层网络的S-Spine层,Leaf层(和三层网络的Spine层)必须交由电交换完成。Spine层无交换全互联(Full-Mesh)的方案也类似,只能位于网络顶层(如果位于Leaf层那就等于是无交换),为了超低延迟牺牲端口效率,用N-1倍Spine层路由实现全互联,作为代价超高的通道数带来的pJ/bit、$/G、通道密度Gbps/mm飙升和可靠性等问题,就需要各种光传输技术不断创新打破瓶颈。

图1、以太交换组成384卡NPU超节点

图片

  2、NVLink互联

  NVLink交换机以其低延迟、大通道数、高带宽(通道数乘以单通道速率)成为GPU互联的领先技术方案,NVSwitch5.0单通道速率达到200Gbps,单芯片单向带宽达到72*2*200G=28.8Tbps=3600GBps,问题是NVSwitch5.0~7.0单向带宽都是3600GBps,考虑到下一代GPU Rubin的I/O带宽达单向1.8TBps=18*4*200Gbps,造成NVSwitch7.0的端口数从前两代的72反而降低到3.6TBps*8/(4*200Gbps)=36,可见单层交换网络已触及网络规模的天花板,难以继续满足大模型对硬件规模指数增长的要求。下一代GPU集群VR300 NVL576只能捡起NVLink4.0时代GH200和NVLink5.0时代GB200 NVL576放弃的两层交换网络来扩大网络节点数,为了保证系统的可靠性、成本、总功耗、总成本等指标,放弃引入前两代失败的光互连,光退铜进,采用正交背板+铜缆的纯电互联,两层交换芯片的总带宽达到恐怖的双向(72+144)*3.6TBps*2=1.5PB!这还带来一个更严重的问题:这个576卡的超大集群只能塞进单柜中,单柜功耗将飙升至接近1000kW[4],这是在挑战供电、散热、运维等工业极限,量产难度将远超成功的GB300 NVL72产品,那只有120kW单柜功耗,都遇到了各种工艺问题和延期。如图2,这条技术路线可能具有更大的不确定性。

图片

图2、NVLink7.0组成576卡GPU超节点

图片

图3、 NVLink7.0组成576卡GPU超节点Plan B

  为了降低单柜1000kW的工艺风险,如图3我们建议了Plan B的方案。引入800G Half-OSFP AEC替代Plan A中的4*200G无源电缆,这样就可以把单柜分散到四柜,每柜功耗将只有原来的1/4,不到250kW,大幅降低的算力密度并不会影响系统指标,几米线缆增加的数十纳秒的飞行时间也不影响GPU的吞吐效率(Throughput),带来的好处是极大降低了供电散热的工艺难度。为了控制互联的距离,还可以将四个柜子背对背十字星放置。本质上这还是单柜,更宽更深还遵守机柜尺寸标准罢了。Spine层引入光互连才是趋势,针对数米以内的传输,光(纤)的损耗可以忽略(相比26#电缆);延迟增加可以忽略(相比无FEC Retimer级联);成本可以忽略(相比M8 PCB走线),关键是可以从根本上突破电互联的物理距离限制。而简单地把电缆换成光缆,超线性增长的交换机和光模块带宽将使成本、延迟、功耗飙升,加之可靠性和运维难题,经两代NVSwitch证明过,这并非经济而合理的技术路线。而CPO等技术路线即使能如预期将光传输部分的延迟、功耗、成本、可靠性大幅度改善,但是并没有对交换和网络架构做改进,所以各种Spine层直接在光域完成的交换以其低延迟、低功耗、高带宽和高端口数潜力[7]得到了业内的重视。

  3、PCIe交换机互联

  虽然还未引入光互连,NVLink仍然是目前在节点数、带宽、延迟等方面最领先的GPU互联协议,其它更多的GPU采用PCIe协议作为GPU的I/O接口。虽然具有延迟低,标准成熟,易于连接存储芯片等优点,但是普遍认为,PCIe单通道速率低(PCIe5.0只有32Gbps),交换芯片端口数少(每端口16通道,最大只有8~18端口),迭代缓慢(支持PCIe7.0的GPU尚未量产)等问题限制了如AMD MI300为代表的PCIe接口的GPU互联组成大节点数的超节点集群。即使引入PCIe交换机,比GPU官方推荐的无交换超节点组网方式的节点数和网络总带宽等方面并没有显著的提升,公认的这是致命的软肋[5] [6]。

  4、波长路由光交换

图片

图4、16卡GPU和显存池配合PCIe交换和波长路由光交换网络

  为打破限制PCIe-GPU互联的瓶颈,波长路由光交换获得重视[7] [8],特别是GPU和显存池之间全带宽低延迟多节点任意互联,打破存储墙,成为GPU scale-up互联的另外一种更为直接的技术路线。图4是最小规模的波长路由交换系统,采用16颗AMD上一代GPU MI300,16节点HBM3颗粒组成显存池,他们之间全带宽任意互联16pcs* 512GBps*8=65.536Tbps,由两跳Leaf层PCIe交换芯片加一跳Spine层波长路由光交换完成。完成波长路由交换(4x4)的是阵列波导光栅路由选择器AWGR,但是完成纳秒级波长切换的是4波光源,其控制信号(图中ab)来自Leaf层交换芯片,所以从电域看来,这根本不是光包交换OPS,和波导路由光交换一样,本质上都是控制面和数据面分离的光突发交换OBS[9],虽然一般认为这是目前唯一可实现的光包交换OPS,因为从光域看来,承载目标地址的光标记信息可以加载到光波长上避免与数据面分离。

  5、 波导路由光交换

图片

图5、256卡GPU配合两层PCIe交换和波导路由光交换网络

  图5还是采用和图4一样的AMD MI300 GPU和带OBS控制输出的128x128 PCIe5.0 Switch,虽然通道数达128,可是端口数只有8个,一般认为这限制了PCIe 交换网络的可扩展性,引入波长路由光交换后的网络可扩展性也有限。但是引入了Spine层波导路由光交换就完全不一样了,比图4的网络规模更大,供应链更成熟。这个系统的关键指标可以跨代碾压成功的GB300 NVL72产品:2倍的总带宽256*1024GBps=260TBps,2.4倍的显存256*192GB=49TB,节点数更是高达256,还可以分散到多达16柜;柜间光互连使高单柜供电散热难题消失;也没必要采用1.6T/3.2T/CPO等高密度光电转换,采用普通的成熟工艺光模块性价比可能更高。

  考虑到Spine层光交换矩阵需要Leaf交换芯片帮助完成拥塞排队和多播等物理层以上的工作,其端口数必须小于电交换芯片上行端口数(或者三层网络的两层端口数乘积)。如果保持Leaf电àSpine电àS-Spine光三层网络架构,更换略大些的192x192 PCIe5.0 Switch(端口数12=192/16)和32x32高速硅光交换矩阵,网络节点数将获四次方提升,可实现6*6*32=1152卡超节点,小芯片大网络,用4N工艺的GPU跨两代碾压图2/3中3NP工艺GPU的VR300 NVL576,节点数翻8倍,总带宽翻4.5倍,总显存翻1.5倍,GPU DIE数量翻倍。所以说,PCIe5.0单通道速率只有NVLink7.0的1/7只是其可扩展性差的借口而已,PCIe交换芯片端口数低也不是问题的关键。有了波导路由光交换可以利用光波分复用WDM把16路光复用到单个波导端口,每端口速率反而可能比其它技术都高(表1);翻8倍的节点数完全可以每节点只放一个GPU,没有必要四颗GPU Die合封在一起共享一个节点的带宽,可以将GPU的I/O端口带宽充分发挥出来;因为Spine层光域交换可以减少一半光电转换次数,系统总延迟(四跳PCIe交换+延迟可忽略的一跳OBS)也接近(三跳NVSwitch7.0)。做个比喻:兵败赤壁(scale-up)后曹操(NVLink)哀叹“既生瑜(PCIe)何生亮(OBS)”。如果用更大端口数的PCIe交换芯片,再用单通道64Gbps的PCIe6.0替代PCIe5.0,更换带宽更大的GPU,总带宽还能翻倍甚至更多。

  当然理论上,PCIe电交换芯片也可以换成更强悍的36端口NVSwitch7.0组NVL1152(1152=18*16)超节点,同为两层网络比纯电交换的VR300 NVL576各方面都优势明显。如果用三层交换网络,甚至可能实现18*18*256=82944节点数的超节点,虽然平均每节点需要的交换芯片双向带宽略有增加(从1555.2/144=10.8TB增加到14.4TB),相应地包括光纤飞行时间在内的总延迟也略有增加(从三跳NVSwitch7.0增加到四跳+一跳延迟可忽略的OBS),平均每卡GPU网络成本和功耗可能也略有增加,但是有限的代价有可能换来广泛的好处:可以继承光交换/光调度的各种优点;可能实现scale-up和scale-out两网融合;可柔性升级适应未来几代GPU;考虑各方面因素优化之后的系统方案性价比更高;显然这是一条可持续演进的技术路线。

  无论光域是波长路由还是波导路由,这个scale-up网络的核心都是带OBS控制输出的电交换芯片,理论上该芯片是兼容的,差异仅仅在于扩展的控制面信号位是去控制高速切换波长进而实现波长路由,还是去控制波导路由。关键的技术难点(非工艺难题)都是信号切换后的高速时钟恢复,这可以通过共享全局锁相环[8]或者所有Leaf交换机引入共享时间戳保证光开关切换前后的系统时钟同步。具体物理层采用何种手段实现路由高速切换并不关键。理论上各种光交换技术对各种电互联协议都是透明的,兼容的,生态友好。

  6、无交换全互联

  无交换全互联(Full-Mesh)的8卡MI300系列GPU之间互联不用交换机,虽然有极低的延迟、成本、功耗优势,但是会导致宝贵的GPU的I/O端口(带宽)单跳效率只有1/(N-1)=1/7,节点数N更是被限制在8以内[6]。

图片

图6、16卡GPU配合无交换MRM的最小网络方案

  Leaf层有交换Spine层无交换全互联就不一样了,如图6,下行有交换高效利用GPU的I/O 端口可做到全带宽,上行端口数直接扩大N-1=3倍,既可以保持Leaf层交换机上行的全带宽互联,又可以消除Spine层交换芯片重复拆包封包造成没必要的延迟,如果不引入光交换,自带波分的MRM比EAM好处多,但是MRM的波长窗口窄,难以支持波长路由光交换是其缺点。至于上行的每端口多少通道,即每通道多高速率需要根据不同的光传输技术方案优化确定,MRM可能32~200G/Lane还自带光波分复用,VCSEL可能50G~200G /Lane,MicroLED可能1~4Gbps/Lane具有目前最低的0.2pJ/bit功耗[10]。作为代价,这类无交换技术路线需要N-1倍的端口数,通道数就更多了。要实用化除了必须进一步降低pJ/bit、$/G,提高端口/通道密度Gbps/mm等关键指标外,至少还面临两大难题:可靠性问题也许还可以通过冗余通道的预留得到部分解决(至少比纯物理层光模块的可靠性要求低很多);更麻烦的是每种光传输技术方案的通道速率差异太大了,交换芯片难以兼容优化,生态不友好。

  受功耗和通道密度等限制,无交换全互联(Full-Mesh)方案的节点数一般被限制在16x以内,甚至8x以内,为了进一步扩大网络规模,各种多方案融合的方案被广泛研究,最简单的光电融合[11]就是引入光分路器降低发射光端口数,同时引入APD弥补到接收端的总光链路损失;甚至还有同时引入波长路由光交换的PULSE,只有8波长完成8x8波长路由光交换、配合1分8光分路器完成8节点无交换全互联,可以实现高达8*8*64=4096个节点的全带宽GPU互联[12]。根据有无引入光交换、有无引入光波分复用来主导(光交换/光传输)可以把目前主要的GPU超节点内光互联技术排列组合成四类,如表2所示,这四类技术路线再排列组合为解决GPU大带宽、多节点、低延迟的超节点内光互联难题带来了希望。

表2、 几种GPU超节点内光互联技术的排列组合

图片

  5、结论

  1) 以太超节点以其技术成熟,生态友好,扩展能力强等特点逐渐成为NPU/XPU的优选技术路线;

  2) 虽然尚未引入光互连,NVLink仍然是目前在节点数、带宽、延迟等方面最领先的GPU互联技术。下一步是继续提升单柜超节点功耗还是引入超节点内光互连是业界关注的焦点;

  3) PCIe协议虽然具有延迟低,标准成熟,易于连接存储芯片等优点,但是普遍认为,单通道速率低,交换芯片端口数少,迭代缓慢等问题限制了其组成大节点数的GPU超节点;

  4) Spine层波长路由光交换以其低延迟、低功耗、高通道速率和高端口数潜力得到了业内的重视;

  5) Spine层波导路由光交换与波长路由技术方案可以做到Leaf层电交换芯片兼容,可以利用光WDM把多路光复用到单个光波导端口,单端口速率最高,工艺成熟,性价比高,是可持续演进的技术路线;

  6) Spine层无交换全互联的端口数直接扩大N-1倍,Leaf层有交换全互联,既可以充分发挥GPU的I/O带宽,又可以消除Spine层交换芯片重复拆包封包造成的不可避免的延迟,也是值得关注的技术方向,各种技术路线的排列组合更是为解决GPU互联难题带来了希望。

  参考文献:

  1. https://semianalysis.com/2025/04/16/huawei-ai-cloudmatrix-384-chinas-answer-to-nvidia-gb200-nvl72/

  2. https://investors.broadcom.com/news-releases/news-release-details/broadcom-ships-tomahawk-ultra-reimagining-ethernet-switch-hpc

  3. Kurtis Bowman, Board Chair, UALink Consortium, UALink Deep Dive, 5-6AUGUST, 2025, Taipei Taiwan, OCP APAC Summit

  4. https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/

  5. https://docs.broadcom.com/doc/PEX89000-Managed-PCI-Express-5.0-Switches

  6. https://semianalysis.com/2025/06/13/amd-advancing-ai-mi350x-and-mi400-ualoe72-mi500-ual256/

  7. Hitesh Ballani etc., Sirius: A Flat Datacenter Network with Nanosecond Optical Switching, Microsoft Research, SIGCOMM ’20, August 10–14, 2020, Virtual Event, USA

  8. P. Mishra etc., A 3D-integrated 56 Gb/s Silicon Photonic Transceiver with 5nm CMOS Electronics for Optical Compute Interconnects JFS1-4, 2025 JSAP 2025 Symposium on VLSI Technology and Circuits Digest of Technical Papers

  9. 黄水清.用于光突发交换的光模块[J]. 光通信研究,2024(5): 240031.

  10. Chris Pfistner, Paradigm Shift in AI Clusters using microLED based Interconnects, LightCounting Webinar - July 2025

  11. Shai Cohen, Nvidia, A Roadmap Toward Sub 1pJ/b Optical Interconnect, TuG4.1 2025 IEEE Photonics Society Summer Topicals Meeting Series(SUM)

  12. Benjamin JL, Gerard T, Lavery D, et al (2020) PULSE: Optical Circuit Switched Data Center Architecture Operating at Nanosecond Timescales. J Lightwave Technol 38(18):4906–4921. URL http://jlt.osa.org/abstract.cfm?URI=jlt-38-18-4906

  关键字:光突发交换OBS,光包交换OPS, 波长路由光交换,波导路由光交换,Full-Mesh无交换全互联,MicroLED


-END-