芯东西(公众号:aichip001)
作者 | 陈骏达
编辑 | 漠影
在新一轮AI技术浪(lang)潮中,基(ji)础设施正成为外(wai)界关注的(de)焦点。随着基(ji)础模型(xing)规模从(cong)千亿级迈向万亿级,训(xun)练与(yu)推理的(de)计算和(he)通(tong)信需求迅速攀升,传统(tong)的(de)算力堆(dui)叠模式已(yi)难以支撑(cheng)。
超大规模AI模型催生出新的基础设施范式——超节点。这一概念(nian)突破了传统服务器的形态,由数十至数百个加速器组成(cheng),通过超高带宽、超低延迟的Scale-up网络(luo)连接(jie),形成(cheng)一个统一的资(zi)源池。
在国产高端算力供应受限的大背景下,超节点已逐渐成为支撑大模型训练和推理的关键架构,互联则被视作其中的核心环节。如何在(zai)超节点(dian)架构中实现(xian)高效(xiao)互联,成为技术界与产业界共同探讨的焦点(dian)议题。
昨日,在AI网络全栈(zhan)式(shi)互联架构(gou)解决方案提供商奇异摩尔(er)与中(zhong)国(guo)信(xin)息通讯研究院(yuan)华东分院(yuan)共同举办的Networking for AI生(sheng)态(tai)沙龙上,多家企业分享了国(guo)产AI从技术突破到生(sheng)态(tai)构(gou)建的整体进(jin)展,而超节点(dian)的互联,成为会上的重点(dian)议(yi)题之一。

在计算、网络两个领域均有一定积累的奇异摩尔,想用芯粒来解决超节点的互联挑战。其打(da)造的(de)高带宽、多语义支持的(de)通用IO芯(xin)粒,或许代表着一种面(mian)向未来的(de)AI网(wang)络基础设施思路。
一、互联成算力破局关键,芯粒方案缘何成为新引擎
过(guo)去(qu)数(shu)年,AI模型的可用性持续提(ti)升(sheng),带动(dong)企业(ye)AI推(tui)理需求迅速(su)增长。与训(xun)练(lian)阶(jie)段的一次性计(ji)算(suan)不(bu)同,每(mei)次推(tui)理都需要调用数(shu)十亿甚至百亿级参数(shu),对算(suan)力资源形(xing)成持续高(gao)压(ya)。
在实时交(jiao)互场景(jing)中,模型(xing)不仅需(xu)要“算(suan)得准”,还(hai)必须“算(suan)得快”,毫秒级(ji)的延(yan)迟和高并发吞吐直接影响用户(hu)体(ti)验和系(xi)统效(xiao)率。
在支撑上述新一代AI模型和应用的超节点中,互联几乎与算(suan)力本身(shen)同等(deng)重要。
高(gao)(gao)速互(hu)联保证模(mo)型参数(shu)在(zai)不同芯片之间的快速交换,是(shi)并(bing)行(xing)训练和(he)推(tui)理的前(qian)提;大(da)规模(mo)集群扩展(zhan)离不开高(gao)(gao)带宽(kuan)、低拥塞的网络,否则(ze)再多(duo)的GPU也难以形成合力(li);通信延迟则(ze)直接影响模(mo)型响应速度。
互联的重要性,也反映在AI基础设施投资趋势中。过去,互联技术在算力中心投资额中的占比不足5%,如今已逐渐增加到15%-20%,未来还可(ke)能持(chi)续上升。
在探索互联技术未来发展方向的过程中,将IO芯粒从核心计算单元中分离出来,已成为一大技术趋势,并获得多家领先厂商采用,有望成为超节点扩展到千卡规模的重要(yao)技术路径之一。
华为昇腾910的(de)Side IO Die设(she)计正(zheng)是这(zhei)一趋(qu)势的(de)实践,它将密集计算与高速接口分工(gong),有(you)效提升(sheng)系(xi)统吞(tun)吐量和制造良率。
英伟达下一代(dai)Rubin架构则(ze)采用多制程节点芯粒(li)设(she)计,不仅分离I/O,还让(rang)计算(suan)单(dan)元实现(xian)模块化。

作为国内罕见的(de)AI网(wang)络互(hu)联领域(yu)全栈(zhan)供应商,奇异摩(mo)尔对这一技术路径(jing)的(de)探索同样值(zhi)得(de)关(guan)注。
成立于(yu)2021年初的奇异(yi)摩尔,在芯粒技术方(fang)面积累深厚,早期通(tong)过中科创星(xing)构建(jian)产(chan)业资源网络(luo),与(yu)半导体(ti)产(chan)业上下游合作(zuo)伙伴建(jian)立深度协作(zuo)关(guan)系。
奇异摩尔最早从片内互联切入,其自研的IOD互联芯粒3D Base Die(与复旦大学合作(zuo)存算一体芯片)曾入选(xuan)ISSCC 2025会议(yi),获得(de)这一被誉为芯片界(jie)“奥林(lin)匹克(ke)”的(de)顶级会议(yi)认(ren)可。伴随AI浪潮的(de)兴起,奇异摩尔在持续深(shen)耕片内互联的(de)同时(shi),也组(zu)建了专(zhuan)注于高(gao)性能(neng)RDMA网络技(ji)术的(de)专(zhuan)业团队。

▲奇异(yi)摩尔首席网络(luo)技术专家叶(ye)栋
这家拥有计算与网络双重背景的企业,已全面布局Scale-out、Scale-up和Scale-inside三大方向。其首(shou)创(chuang)的超节点GPU片间互联芯粒产品解(jie)决方案Kiwi G2G IOD,在(zai)计算Die与IO Die解(jie)耦(ou)技术路径下,尤其值得关注(zhu)。
二、互联芯粒G2G IOD技术细节全揭秘,如何赋能AI超节点
何为(wei)超节点芯粒?这是(shi)一款专为(wei)xPU(含GPU)等加速(su)器之间(jian)的Scale-Up网络互(hu)联(lian)而设计的超节点互(hu)联(lian)芯粒。

在(zai)G2G(GPU互联)领域,厂商们(men)普遍面(mian)临四大难题(ti),奇异摩(mo)尔的(de)G2G IOD正是对(dui)这(zhei)些痛点的(de)直接(jie)回(hui)应。
带宽瓶颈
对超大规模AI模型而言,训练、推理和多模态数据交换本质上是数据(ju)密集型工(gong)作,只有(you)TB级(ji)带宽才能(neng)避免算力闲置(zhi)、模型同(tong)步延迟、用户体验(yan)卡顿,让超节点真正发挥作用。
Kiwi G2G IOD支持TB级带宽与高(gao)并发数据传输,给大模(mo)型的训练(lian)和推理提供持续稳定的高效(xiao)互联(lian)支撑。
拓扑扩展性
超节点由数十甚至上百块GPU/xPU构成,不同的训练任务和部署场景对网络结构有不同要求:有些任务适合全互联(Full Mesh),有些适合脊叶(Spine-Leaf)结构。G2G IOD便兼(jian)容全互联(lian)、脊叶等多(duo)种网络结构,避免在(zai)每次扩展(zhan)或任(ren)务切换时重(zhong)新设计网络的(de)需求(qiu)。
多语义需求
GPU互联领域长期存在两种语义分野:消息语(yu)义(yi)(yi)与(yu)内(nei)存语(yu)义(yi)(yi)。
消息语(yu)义(yi)适合大块数据传输,通常通过RDMA(远程直(zhi)(zhi)接(jie)内(nei)存(cun)访问(wen))来完(wan)成(cheng)。内(nei)存(cun)语(yu)义(yi)则更适合小(xiao)粒度(du)操(cao)作(zuo)。GPU之间可(ke)以像访问(wen)本地内(nei)存(cun)一(yi)样(yang),直(zhi)(zhi)接(jie)对另一(yi)颗GPU的(de)内(nei)存(cun)进(jin)行操(cao)作(zuo)。
过去的产业格局(ju)中,英伟达NVLink以(yi)私(si)有协议走内存语(yu)(yu)义路线,而华为、Intel等厂(chang)商更多采用消息语(yu)(yu)义方案。
然(ran)而,单纯(chun)依(yi)赖消息语义,在传(chuan)输大(da)块(kuai)数(shu)据(ju)时(shi)效率(lv)很高,但(dan)在处(chu)理小数(shu)据(ju)时(shi)会面(mian)临巨大(da)开销。单纯(chun)依(yi)赖内(nei)存语义,虽能高效处(chu)理小规模(mo)访问,却在面(mian)对(dui)大(da)数(shu)据(ju)搬(ban)移(yi)时(shi)效率(lv)下降。
因此,一个理想的Scale-up互联架构,必须同时支持两种语义。G2G IOD同(tong)时支(zhi)持消息语(yu)义(yi)和内存语(yu)义(yi),这种“双模”设计,才能真(zhen)正兼(jian)顾性能与灵活(huo)性。
协议通用性
当前Scale-up协(xie)议(yi)从简单(dan)P2P接口(kou)演进为(wei)复杂协(xie)议(yi),通用协(xie)议(yi)仍(reng)在(zai)标准化过程中。
G2G IOD本身基于奇异摩(mo)尔(er)独创(chuang)的(de)HPDE可编程架构,能支持(chi)不同(tong)的(de)协议包括SUE、OISA、ETH-X,和未来其他主流(liu)协议,从而满足不同(tong)厂商不同(tong)场景的(de)需求,在生态百花齐放的(de)Scale-up系(xi)统中支持(chi)多(duo)协议类(lei)型及(ji)其升(sheng)级,从而降低持(chi)续研发(fa)难(nan)度和开发(fa)成本。
G2G IOD的优势不仅体现在性能,更在于芯(xin)粒(li)架构带来的战(zhan)略价值。
芯粒范式赋予系统架构师对性能(neng)、功耗、面(mian)积和成本(PPAC)四个维度(du)进(jin)行解(jie)耦和独立优化(hua)的能(neng)力,从而(er)显(xian)著提升系统设计的灵活性(xing),并降低研发门槛(jian)。

▲GPU互(hu)联芯粒与GPU集成I/O通信IP的(de)区(qu)别(bie)
一方面,越来越大的超节点域所带来的网络流控、IO功能对于xPU企业的研发提出复杂性挑战。而解耦的互联芯粒无需在设计阶段就确定采用何种Scale-Up协议,同时也大幅降低了研发难度和成本,可节省(sheng)数亿元的研(yan)发投入(ru)。
另一方面,基于奇异摩尔的HPDE高性能可编程架构,G2G芯粒支持通过用户友好的编程配置或产品升级来适配更新的算法和协议类型,有利(li)于实现快速迭代与升级,进(jin)一(yi)步降低持续(xu)研发(fa)的难度和开发(fa)成本。
此外,该(gai)范式还支(zhi)持开(kai)放生(sheng)态,可复用(yong)现有的(de)网络交(jiao)换机,无(wu)需专门(men)研发专用(yong)交(jiao)换机,有助于构(gou)建更加开放和(he)具备竞(jing)争力的(de) Scale-Up生态(tai)系统(tong)。
在工艺体系方面,芯粒设计是应对后摩尔时代挑战、特别是先进制程节点下成本与物理限制的重要战略转型。其关键优势在于支持异构集成,即不同制程节(jie)点的芯片可分别优化后组合集(ji)成。
其中(zhong),成熟(shu)制程的应用有助于提升(sheng)良(liang)率、降低(di)非经(jing)常性工程(NRE)成本(ben),而(er)计算单元(yuan)仍可采用最先进制程,从而(er)实现(xian)整体(ti)异构集成所(suo)带来的成本(ben)优化。
G2G IOD并非一(yi)(yi)(yi)款单(dan)点产品(pin),而是开放生态的一(yi)(yi)(yi)部分(fen)。可以说,这款芯粒(li)既(ji)是超级节点互联(lian)的性(xing)能解法,也是国产AI算力基础(chu)设(she)施(shi)走向开放化和(he)规(gui)模化的一(yi)(yi)(yi)次关键尝试。
三、拥抱开放生态,多套方案回应AI时代算力变革
在(zai)当前的(de)(de)AI加(jia)速(su)计算领域,奇异(yi)摩尔推出的(de)(de)超节点互(hu)联(lian)解决方案(an)是行业(ye)内目(mu)前唯一一种基于芯粒架构并构建(jian)于开放生态(tai)之(zhi)上的(de)(de)互(hu)联(lian)方案(an)。
奇异(yi)摩尔积极投(tou)身于全球及国(guo)内(nei)主(zhu)流开放标准(zhun)生(sheng)态的建设,全面(mian)参与(yu)了UEC、UALINK、OISA、ETH-X等多个关键产(chan)业联盟。
其中(zhong),与中(zhong)国移动共同构建OISA(全向智感互联)生态是其战略重点之一。自OISA 1.0阶段(duan)起,奇异摩尔便深(shen)度跟(gen)进该技术体系的演进。
在2025年中国算力大会上,奇异摩尔作为核心(xin)合(he)作伙伴,与(yu)中国移(yi)动等(deng)产业(ye)伙伴共同启动了OISA生态共建战略合(he)作,并(bing)见证了性能(neng)大幅增强(qiang)的OISA 2.0协议的发布。
中国移动(dong)研(yan)究院(yuan)技(ji)术(shu)经理李锴在活动(dong)演讲(jiang)中谈道,“作为OISA体系的(de)积极践(jian)行(xing)者,奇(qi)异(yi)摩尔深度投身(shen)生(sheng)态(tai)建设,在协议及IO芯粒(li)(li)的(de)标准制定与(yu)产品研(yan)发(fa)中全(quan)力推(tui)进(jin)生(sheng)态(tai)适配(pei),为《OISA全(quan)向(xiang)智感互联IO芯粒(li)(li)技(ji)术(shu)白皮书》的(de)编撰贡献了关键力量。”
奇异(yi)摩(mo)尔作为一家全栈(zhan)AI网(wang)络互联(lian)企业(ye),还在Scale-out超级网(wang)卡(ka)SuperNIC和Scale-inside D2D方面有产品布局。

在Scale-out方(fang)向(xiang),为(wei)应对(dui)网络面(mian)临的带宽、延迟、海量节点(dian)流控和成本控制等多重挑战,业界提出了UEC(Ultra Ethernet Consortium,超(chao)级(ji)以太网联(lian)盟(meng))技术路线,为(wei)下一代RDMA提供(gong)方(fang)向(xiang)。
奇异摩(mo)尔在研的(de)Kiwi SNIC超级智能网卡内置高(gao)性(xing)能RDMA引(yin)擎(qing),提供高(gao)达800G带宽,并支持乱序(xu)处(chu)理、多径(jing)传(chuan)输和(he)选择性(xing)重传(chuan),显著提升大规模网络(luo)的(de)数据传(chuan)输效率(lv)和(he)可靠性(xing)。
在Scale-Inside方(fang)向,奇(qi)异摩尔的(de)(de)片内(nei)互联方(fang)案,基(ji)于(yu)UCIe的(de)(de)D2D IP及Central IO Die及3D Base Die系列,可赋能AI芯(xin)(xin)片/高(gao)性(xing)能芯(xin)(xin)片的(de)(de)算(suan)力(li)提升,进一步(bu)提升AI网络的(de)(de)单计算(suan)卡算(suan)力(li)。
结语:国产AI算力闭环,初步成型
在昨日落幕的生(sheng)态沙(sha)龙活动(dong)上,我们(men)看到(dao)(dao)(dao)越来越多企业(ye)正(zheng)覆盖(gai)从(cong)算(suan)力(li)芯(xin)片到(dao)(dao)(dao)算(suan)法模型再到(dao)(dao)(dao)算(suan)力(li)服(fu)务(wu)的全链(lian)条环节(jie),展现了国(guo)产AI从(cong)技术(shu)突破到(dao)(dao)(dao)生(sheng)态构(gou)建(jian)的整体(ti)进展,国(guo)产算(suan)力(li)闭(bi)环正(zheng)在持续完善。
奇异摩尔这样的企业(ye)专注于互联解决方(fang)案(an),构建了从芯(xin)片内部到超算集群的完(wan)整闭环,不仅解决了传输(shu)性(xing)能、协议兼(jian)容性(xing)和部署成(cheng)本等核心难(nan)题,更以开放标准和灵活架构推动了国产算力生态(tai)的持续(xu)迭代(dai)与升(sheng)级。
新华三则发(fa)布了全新H3C UniPoD系(xi)(xi)列超节点,支持(chi)高(gao)性能Scale-up互联,可实现单机柜多(duo)卡(ka)GPU的高(gao)速互联与资源协(xie)同,满足大模型(xing)训练(lian)和(he)推(tui)理需求。该(gai)系(xi)(xi)列同时支持(chi)灵活交(jiao)付模式,助力(li)(li)企业(ye)快速构(gou)建业(ye)务和(he)全栈能力(li)(li)。
此外,财跃星(xing)辰、腾讯云、沐曦、中科创星(xing)、无问芯(xin)穹、后(hou)摩智能、中昊(hao)芯(xin)英等企业也(ye)分享了他们在打造国产AI技术体系(xi)上(shang)的探(tan)索(suo)。
在会上,中国信通院华东分院总工程(cheng)师陈(chen)俊琰(yan)指(zhi)出,未(wei)来,智(zhi)能算力产业的高(gao)质量发(fa)展需(xu)要强化技术(shu)创新协同,突破核心瓶颈;完善(shan)算力调(diao)度体(ti)系(xi),提升配置效率(lv);深化场景融合应用,赋能实体(ti)经济。
中(zhong)科创星董事总(zong)经(jing)理卢小保认为,AI算(suan)(suan)力(li)正由(you)单(dan)体(ti)智能(neng)往群体(ti)智能(neng)发展,Scaling Law下(xia),互联的作用越(yue)来(lai)越(yue)凸(tu)显,成了延续摩尔定(ding)率、不(bu)断(duan)提升算(suan)(suan)力(li)密度的核(he)心解(jie)决路径。在国(guo)内(nei)先(xian)进工艺(yi)受(shou)限的情况下(xia),互联更是(shi)具备(bei)特(te)殊(shu)价值,让国(guo)内(nei)算(suan)(suan)力(li)产业可以(yi)(yi)以(yi)(yi)规模和(he)成本换(huan)性能(neng),实现(xian)算(suan)(suan)力(li)自(zi)立(li)。
业内投资专家(jia)曾指出(chu):“未来三年(nian),谁能(neng)(neng)把国产(chan)(chan)算力(li)高(gao)效(xiao)‘连’起来,谁就能(neng)(neng)赢(ying)得(de)AI基础设施的(de)赛点。”互联,这(zhei)个曾经被忽视的(de)技术角落,正(zheng)成为国产(chan)(chan)AI算力(li)能(neng)(neng)否真(zhen)正(zheng)实(shi)现闭环的(de)关键(jian)一战。