在智猩猩联合主办的2025中国AI算力大会同期进行的「超节点技术研讨会」上,曦智科技联合创始人兼首席技术官孟怀宇博士围绕《光互连、光交换:解锁超节点规模上限》发表了主题报告。

孟怀宇博士指出,超节点技术在大模型的训练与推理过程中发挥着至关重要的作用。其理想架构为单层拓扑,这能够显著降低延迟与成本。然而,由于国产芯片制程的限制,往往需要集成数百块国产GPU才能与海外产品相当。

在这种情况下,孟怀宇博士认为,扩大超节点规模主要有两条路径:一是提升单机柜的功耗,二是增加机柜的数量。而跨机柜互连必然要依赖光技术。

针对光互连大规模应用所面临的功耗、成本以及可靠性挑战,孟怀宇博士认为高集成光学方案是破局的关键。通过采用共封装光学(CPO)技术,将光电转换集成至芯片附近,可将功耗降低 1/3 至 2/3,同时也减少了分立器件的数量,从而提升了可靠性。

最后,孟怀宇博士还分享了曦智科技的分布式光交换(dOCS)技术。dOCS在光I/O层嵌入交换功能,实现了两大价值:一是动态冗余,在故障发生时,能够以服务器为单位切换拓扑,从而降低备份成本;二是灵活伸缩超节点规模,可根据不同模型的算力需求进行适配。最终,曦智科技希望构建一个融合光电计算、光互连与光交换的高效集群。

本文为孟怀宇博士的报告实录,有一定删减。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

超节点本身的价值我觉得不需要过多的说,今天前面各位专家已经也谈到了很多,主要是在大模型训练和推理两个层面。

在训练层面,我们看到模型的尺寸自从GPT-3出来以后迅速发展,训练所需要的GPU数量也指数级增长。超节点可以极大地提高训练的效率,尤其是对比较大的模型。

推理可能是2025年以来在国内市场更受关注的一个应用场景。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

上面这张图是黄仁勋在25年上半年GTC上展示的一个图片的简化版本,意思是说大模型的推理可以按照横轴和纵轴分成两个部分。横轴是单个用户输出token的速度,可以把它翻译成用户体验,从某种意义上也可以把它翻译成价格。而纵轴是每张卡可以输出的模型数量,从经济学的逻辑来说可以把它翻译成产量。那么价格乘以产量就是总的产值。

因此我们在这张图片上面选一个运营点的时候,它所囊括的那个方块,就意味着这个状态下系统可以产生的价值。黄仁勋在GTC上想要展示的,是他们的Blackwell NVL72超节点从产生价值的角度来讲远远高于之前的8卡集群。

一、超节点架构应往单层发展

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

超节点的架构我们看到有单层超节点和两层超节点两个逻辑,这个概念也很清楚,就是超节点的计算卡需要多少层交换机才能够组成一个整体。

从算法的应用上来讲,尤其是超节点的推理来说,我们希望它整体延迟更低、成本更低、可靠性更好。由此推得,超节点最好是只有一层。但是现实中我们可能没有足够大的交换机,没有足够大的高效互连,使得在某些情况下没办法把超节点做成一层架构。也有超节点是用两层的架构,但是我们觉得这应该是暂时的一个妥协方案,最终超节点架构应该往单层方向发展。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

刚才说了,超节点我们希望是单层,这是一个点。第二个点,在国产生态中,单卡单芯片算力是严重受限的,基本上直接被制程所限制。那么,当国产芯片制程可能一段时间内停留在7纳米水平的时候,我们的单芯片的算力、带宽、显存容量、显存带宽,比现在主流的NVL72用的B200芯片,基本上是2倍、4倍甚至7倍的差距。

如果人家一个超节点NVL72有72个B200芯片,咱们假设使用7nm国产GPU,大概也就是A100的水平,基本上就是几百张卡。

刚才提到我们希望超节点是一层的,然后又希望国产超节点要对标海外的的超节点,这样就得到我们需要几百个国产GPU连成一层的超节点,我们要怎么实现呢?

二、 单层超节点扩大规模主流路径

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

我们觉得现在的起点和将来的终点,应该都是大家比较认可的。短期内尽量往单个机柜塞,单机柜的功耗上限有多少就塞多少。比如传统数据中心里,非计算、非高电的机柜功耗就是20kW,可能还不到。将来每个机柜可能会超过100kW,甚至我也看到有更多的一些规划,我们肯定也希望机柜的数量尽量多。因为国产GPU,100kW放进去可能也就是100个,如果需要几百张卡的超节点的话,肯定是需要多个机柜的。

所以我觉得发展的起点和终点大家应该是有共识的:起点是单机柜,终点是多机柜,且每个机柜的电量会越来越高。

从机柜数量和每个机柜能够容纳的GPU数量来讲,可以说有两条路径。第一条路径是先把单个机柜的功耗往上提,尽量往里塞(GPU),看能塞多少。NVIDIA走的其实就是这样一个路线,今年也发布了后面的几代产品,从NVL72、144到576。还有一条路径是先考虑增加机柜的数量,把数量加到位了之后,再把他们连成一个超节点。海外比较典型的样品就是谷歌的TPU,最新应该是有数千卡的超节点,它其实就是一个多机柜的展示方法。

这时出现了光互连的必然性。当超过一个机柜,多个机柜的GPU互连的时候,直接使用光可能是一个必要的选择。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

超节点GPU直接出光使用多个机柜的时候有什么好处呢?

首先,光缆相对于铜缆最明确的优势就是距离远。一般来说,铜缆112G可以走1米或者2米,或者AEC有的时候可以走3-7米。而普通的短距光缆很容易就可以到50米、100米甚至千米级别。距离不是问题,这其实就产生了很多的可能性,比如组成超节点的机器可以随便放在哪里。

今天上午,包括之前的专家也提到高电机柜本身也是有相当的技术挑战的。比如整个数据中心的土建、供电、液冷以及整套系统如何设计等。当我们有跨机柜的超节点能力的时候,短期内其实就可以规避这些问题。

比如同样是四个服务器的超节点,假设单个机柜无法支持那么大的供电和散热,我们可以把它们放在两个机柜里,通过光缆互连,这样就能组成一个超节点。

解锁了距离限制之后,其实还有很多其他的优势。从商业上来讲,交付形态不一定就是完整的机柜,因为超节点本身就是多个服务器连起来,我们可以用4个、6个或者8个服务器,也可以按照客户的需求灵活配置,对有些客户来说他们是比较在意这一点的。

大家都知道光缆传输距离远远长于铜缆,另外还有一点可能大家没太意识到,光缆其实比铜缆要细很多。

上图右侧展示的是我们已经部署落地的光缆和铜缆混合的一个超节点。大家很容易看出来,浅蓝色很细的线就是光缆,占据了图片很大面积的黑色的线就是铜缆,很明显他们的尺寸是不一样的。

如果用铜缆来做这件事,可能上架的时候会阻塞风道,影响散热,导致产生一些问题。当然也可以用液冷,但是液冷又是另外一层技术难点。另外铜缆比较重,会去拉上面的铜缆接口。铜揽接口长期承重的时候,会有可靠性的问题。这些都是我们在现实部署中遇到的一些具体情况。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

使用光缆业界也有一些顾虑,包括功耗、成本和可靠性三个方面,尤其是在大规模超节点中,光缆的使用数量会非常大。一个典型的例子就是华为今年发布的CloudMatrix 384超节点。

上图我圈出了两个数字,CloudMatrix 384在二层使用了3000多根光缆,也就意味着6000多个光模块。这么大数量的光模块显然对于功耗、成本和可靠性有着非常高的要求。

为什么光互连相比铜互连会有这样的问题呢?基于可插拔光模块的光互连,实际上不是半导体产品,每个光模块至少有二三十个零件。激光器、隔离器、棱镜等,还要用胶水等各种各样的方式把它们粘起来,之后以上这些再乘以4或者乘以8。所以每个光模块里都有几十个分立的零件,通过机械的方式组合成最终的产品。

大家很容易联想到,我们可以把光模块这样的非半导体产品变成半导体产品,把这些元器件全部或者尽量多的集成到1个或者2个芯片里,从而符合长期以来大家认知当中的芯片产品的逻辑。

芯片产品不怕复杂,一个计算芯片可能有数十亿个晶体管,只要能够在半导体工艺中进行生产,其可靠性就会非常好。在需求量非常大的时候,每个芯片的成本也可以降低到可控层面。因此,我们觉得解决以上问题很重要的一个方向就是使用集成度更高、更接近于半导体逻辑的光学产品。

三、 光互连技术的演进

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

通过这张图我们可以看到光互连技术的演进路线。

左下角是目前大部分光通信的状态,业界在这方面也有几十年的经验,是一个可插拔的光模块。光模块距离主芯片的距离,从服务器的尺寸来看可能有几十厘米。再进一步,可以把光电转换模块放在离主芯片更近的地方,比如放在同一个PCB板上,这个距离可能会到5cm、3cm。

再往后可以放在同一个封装上面,变成所谓的共封装光学Co – Packaged Optics,简称CPO,这也是最近两年以来比较火的一个概念。

最后我们很容易想象,可以把光电转换和主芯片,也就是数字芯片垂直3D堆叠放在同一个芯片上,实现光电融合。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

这样的技术演进在集成度上有多大的好处呢?这里有一个直观的展示。

上面中间展示的是博通51.2T的TH5交换机,也是博通第一代量产化的共封装光学CPO产品。大家可以看到中间的封装旁边有四块玻璃窗口一样的东西,里面是可以传达51.2T的一个光电转换引擎,被封装在芯片边里。

如果51.2T的带宽用传统的光模块来支持,会是什么状态呢?那就是周围这一圈光模块,128个光模块全部摆在一起就是这个样子。

通过上图,这样大家可以很直观的看到两种技术在集成度上会有多大的提升。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

功耗层面,从光学层面来讲,共封装光学相比传统可插拔光模块会节省1/3-2/3左右的功耗。功耗相对来说是小一点的担忧,毕竟不管怎么说,通信的功耗相比1kW以上的GPU来说可能还是很小的。

可靠性是更为重要的一点。集群在做训练和推理的时候,与传统的网络逻辑不一样,他们是协同作战。也就是说假如一个GPU因为互连出现问题,少则拖累一个服务器,多则整个万卡集群需要重启,这个代价是非常大的。所以业界对于集群任何部分的可靠性都有很高的要求,当然也包括对互连的可靠性。

我们使用更先进的集成光学技术的时候,对于光互连的可靠性实际上也有比较客观的提升,最简单的就是分立器件的数量少了。当然每个器件通过机械的方式安装在一起的时候,每一个安装的地方都有可能出问题。此外因为是光互连,某一个地方进去一粒灰尘可能都会产生问题,我们可以尽量减少灰尘可能进去的地方,从而降低出现问题的概率,包括把激光光源拉到面板上面远离热源,这样本身也可以极大降低光互连出问题的概率。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

海外一些巨头在共封装光学CPO上已经有一些布局。

在共封装光学CPO上的研究,包括商业化尝试,在过去十年一直在持续。真正做到接近量产级别的,是通讯领域的第一大巨头博通,前面也展示了他们共封装的交换机。今年上半年,NVIDIA在GTC上也发布了他们共封装光学CPO产品。也就是说通信和算力界的两大龙头,都已经进入了这个领域。

四、 基于分布式光交换的超节点新架构

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

对于整体可靠性的提升,我们还有另一个想法,就是通过光交换减少冗余度。从现有超节点的架构来说,不管是直连架构,还是交换架构,都要回答一个问题:当一个超节点有上百甚至数百个GPU的时候,如何保证任何一个点出问题时,超节点还能继续运行。所以总要有各种各样的冗余设置在里面。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

我们觉得可以把交换功能融入到光互连中,把一些小的交换功能融入到光IO领域,我们称之为分布式光交换dOCS。这是一个很小的功能,但组成集群之后可以实现非常有意思的状态。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

通过上图来做一些简单的解释。

假设上面的每一个圆都是一个服务器,超节点是由若干个服务器组成的。正常状态下,第一行每4个服务器(32卡)组成一个超节点,我们可以通过光互连把前面12个服务器组成三个超节点,并给到两个备份的服务器。同时,因为我们在光互连出口的地方提供了交换功能,因此可以做灵活的拓扑切换。

假设因为某些原因两个服务器出了问题,当系统检测到异常时,分布式光交换可以跳过一个服务器重组超节点。比如图中第二行,跳过第4个坏的服务器,然后把两个备份服务器拉进来,重新把好的服务器用起来,坏的服务器下线。

这样冗余备灾的颗粒度就不是整个超节点了,只是一个服务器。对于冗余来讲,能够在很大程度上的缓解压力,因为用来冗余备灾的服务器是不再赚钱的服务器。

我们肯定希望系统在保持整个集群效率的前提下,能用更小的冗余度保证整体运营是最好的,这样的灵活度对于大集群来说是非常有价值的。

从另一个方向来说,灵活的拓扑切换可以被用来构建不同尺寸的超节点。很多时候,超节点的尺寸并不是越高越好。

假设一个GPU出口带宽总数一致,对于比较大的模型来说会希望组建大尺寸的超节点。但当某个时候要切换到相对小一点的模型时,比如文生图模型比大语言模型要小很多,这种情况下,所谓最佳的超节点尺寸可能就变成了两个服务器,或者有的时候需要六个服务器、八个服务器,可以通过灵活的切换,达到灵活改变超节点尺寸的效果。

当然把所有的服务器接上所有的交换机也可以实现,但其成本、系统的复杂度,和这样的超节点解决方案就不在一个层次了。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

这里展示的是我们实现这一点所做的一些工作,总体来说就是集成的光电转换。区别是我们在每一个光电转换的出口处,做了多路径备份,由整个系统去控制它,在恰当的时候做恰当的切换,以实现拓扑的灵活调整。

光互连与光交换解锁超节点规模上限|曦智科技CTO孟怀宇博士报告回顾

使用分布式光交换,可以在各个情况下提升超节点集群算力的利用率。此外,我们知道最大、最先进的交换芯片其实也是非常依赖先进制程和先进封装技术的,而分布式光交换所依赖的供应链要简单不少。光芯片不依赖先进制程,并且相对来说国内水平和海外差距不大,这个可能是使用光交换,尤其是分布式光交换的额外好处。

我今天的演讲就到这里,谢谢大家!