芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
芯东西7月(yue)26日报(bao)道(dao),在世界人(ren)工智(zhi)能大会开幕前(qian)夕,国内GPU企业摩尔线(xian)程重磅披露其(qi)完整AI技(ji)术布局。
面对生成式AI爆发下的大模型训练效率瓶颈,摩尔线程正通过系统级工程创新,构建新一代AI训练基础设施,为AGI时代打造生产先进模型的“超级工厂”。
这(zhei)座(zuo)“AI工厂”的产能,由五大核(he)心要素的公(gong)式:
AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性

摩尔线程(cheng)创始人兼CEO张建中表示,摩尔线程(cheng)是国内(nei)极少数原生支(zhi)持(chi)FP8的(de)GPU厂商,也是国内(nei)极少数具(ju)备(bei)FP8大模型训练的(de)平(ping)台。
这座“AI工厂”不仅有高效的模型训练,还具备极致的推理验证能力。基于自研MUSA技术栈(zhan),摩尔线程构(gou)建覆盖(gai)大(da)语言模型、视觉、生成类模型的(de)全流(liu)程推理解决方案,打造实现“训练-验证-部(bu)署”的(de)无缝衔(xian)接。
根据现场演示,其旗舰产品MTT S5000满血跑DeepSeek R1模型推理,速度达到100 tokens/s,非常快,已经达到行业领先。

摩尔线程还重磅预热:将于今年10月举办首届MUSA开发者大会,邀全球开发者共建生态。
一、打造先进AI工厂,摩尔线程解密五大核心要素
前沿AI模型正(zheng)以(yi)惊(jing)人的(de)速度迭代,从GPT系列、Gemini到(dao)DeepSeek、Qwen的(de)快(kuai)速更新,模型训练(lian)迭代时间已缩(suo)短至不足3个月。丰富的(de)模型,快(kuai)速的(de)更新,对新一代高(gao)性能AI计算基础设施提出迫(po)切要求。
对此,摩(mo)尔线程(cheng)提出“AI工厂(chang)”,要实现从(cong)(cong)底层芯片架构创新、集群整体架构的优化(hua)到软件(jian)算法调优和资源调度系统的全面升级(ji),以推动AI训练从(cong)(cong)千卡级(ji)向万卡级(ji)乃至十万卡级(ji)规模(mo)演(yan)进。

摩尔线程以全功(gong)(gong)能(neng)GPU通用算(suan)力为基(ji)石,通过先进架构、芯片算(suan)力、单节点(dian)效(xiao)(xiao)率、集(ji)群效(xiao)(xiao)率优化(hua)、可靠性等协同(tong)跃升(sheng)的(de)深(shen)度技术创新,旨在将全功(gong)(gong)能(neng)GPU加速计算(suan)平(ping)台的(de)强大潜能(neng),转化(hua)为工程级的(de)训练效(xiao)(xiao)率与可靠性保障(zhang)。
1、全功能GPU,实现加速计算通用性
计算功能(neng)的(de)完备性与精度(du)完整(zheng)性是(shi)支撑多(duo)元(yuan)场景的(de)核(he)心(xin)基石。
摩尔线程以自(zi)主(zhu)研发的全(quan)(quan)功能(neng)GPU为核(he)心,构建了(le)“功能(neng)完备”与“精度完整”的通用性(xing)底(di)座(zuo),全(quan)(quan)面覆盖从AI训练、推理到科学计算的全(quan)(quan)场(chang)景(jing)需求。
(1)单芯片覆盖多场景:基于MUSA架(jia)构的(de)突破性设计,GPU单芯(xin)片即可集成AI计算(suan)加速(训(xun)推(tui)一体)、图形渲染(2D+3D)、物理仿真(zhen)和科学计算(suan)、超高(gao)清(qing)视频编解码能力(li),充分(fen)适(shi)配AI训(xun)推(tui)、具身智能、AIGC等多样(yang)化应用(yong)场景。

(2)精度树立行业标杆:支(zhi)持从FP64至(zhi)INT8的完整精度谱(pu)系(xi),原生支(zhi)持FP8大(da)(da)模型训(xun)练(lian)及(ji)推理,并通过FP8混合精度技术,在主流前(qian)沿大(da)(da)模型训(xun)练(lian)中实现20%~30%的性能跃升,为国产GPU的算力效率树(shu)立行业标(biao)杆。

(3)前瞻支持模型演进:技术体(ti)系不仅满足(zu)大模(mo)型(xing)时代的(de)高效计算需求(qiu),更为世界模(mo)型(xing)和新(xin)兴AI架构的(de)演化提供前瞻(zhan)性支撑。
2、自研MUSA架构,提升单芯片有效算力
摩尔线(xian)程基于(yu)自(zi)研MUSA架构,通过计(ji)算、内存、通信三重突破,显著提升(sheng)单GPU运算效(xiao)率。
(1)创新架构突破传统限制:采用创新的(de)全(quan)功能(neng)、多引擎、可配(pei)置、可伸缩GPU架(jia)构(gou),通(tong)过硬件资(zi)(zi)源池(chi)化及动(dong)态(tai)资(zi)(zi)源调度(du)技术,构(gou)建了全(quan)局共享的(de)计算、内存与通(tong)信(xin)资(zi)(zi)源池(chi),允许面(mian)向(xiang)目标市场快(kuai)速裁剪出优(you)化的(de)芯(xin)片配(pei)置,大幅降低(di)了新品芯(xin)片的(de)开发成本,在保障(zhang)通(tong)用性的(de)同(tong)时(shi)显著提升了资(zi)(zi)源利用率(lv)。

(2)计算性能显著提升:AI加(jia)速系统(TCE/TME)全面(mian)支(zhi)持(chi)INT8/FP8/FP16/BF16/TF32等多(duo)种混合(he)精度(du)计(ji)算(suan)。其中(zhong)FP8技术通过快(kuai)速格式转换、动(dong)态范围(wei)智能适配、高精度(du)累加(jia)器(qi)等创(chuang)新设计(ji),在保证计(ji)算(suan)精度(du)的同(tong)时(shi),将(jiang)Transformer计(ji)算(suan)性能提升约(yue)30%。


(3)内存优化:通(tong)过多精度近存规约引(yin)擎(qing)、低延迟Scale-Up、通(tong)算并(bing)行资源隔离等技术,内存系统实现了50%的带(dai)宽节省和60%的延迟降(jiang)低,有效提(ti)升数(shu)据传(chuan)输能力。

(4)通信效率优化:独创的ACE异(yi)步通信引擎减少了(le)15%的计(ji)算资源损耗;MTLink2.0互连技术提供(gong)了(le)高(gao)出国内(nei)行业平(ping)均水(shui)平(ping)60%的带(dai)宽(kuan),为大规模集(ji)群部(bu)署奠定了(le)坚实基础。


3、MUSA全栈系统软件,提升单节点计算效率
摩尔线程通过MUSA全栈系(xi)统软件实现(xian)关键技术突破,推(tui)动AI工厂从单点创新转向系(xi)统级效能(neng)提升。其核心创新包括:
(1)任务调度优化:核函数启(qi)动(Kernel Launch)时间缩短50%。

(2)极致性能算子库:GEMM算子算力利用(yong)率(lv)达(da)98%,Flash Attention算子算力利用(yong)率(lv)突破95%。

(3)通信效能提升:MCCL通信库实现RDMA网络97%带(dai)宽(kuan)利用率;基于异步(bu)通信引擎优化计算通信并行,集群性能(neng)提升(sheng)10%。

(4)低精度计算效率革新:FP8优化与行业首创细粒(li)度重计(ji)算技术,显(xian)著降低(di)训(xun)练(lian)开销(xiao)。

(5)开发生态完善:基于Triton-MUSA编译器 + MUSA Graph实现(xian)DeepSeek-R1推(tui)理加速1.5倍,全面(mian)兼(jian)容(rong)Triton等(deng)主流(liu)框架。


4、自研KUAE计算集群,优化集群效率
单(dan)节点效率达到(dao)新(xin)高度后,下一个挑战是如何实现大(da)规模集群的(de)高效协作。
摩尔线程自研KUAE计算集群通过5D大(da)规模分布式(shi)并行计算技术,实现上千节(jie)点的(de)高效协作(zuo),推动(dong)AI基础设施从(cong)单点优化迈向系统(tong)工程级突破。
(1)创新5D并行训练:整(zheng)合数据、模(mo)型(xing)、张量、流(liu)水线和专家并行技术,全面支持Transformer等(deng)主流(liu)架(jia)构(gou),显(xian)著提(ti)升大规模(mo)集群训练效率。

(2)性能仿真与优化:自研Simumax工具面向超大规(gui)模(mo)集(ji)群(qun)自动(dong)搜索最(zui)优并行策(ce)略,精(jing)准模(mo)拟FP8混(hun)合(he)(he)精(jing)度(du)训练与算子(zi)融合(he)(he),为DeepSeek等模(mo)型(xing)缩(suo)短训练周期(qi)提供科学依据。

(3)秒级备份恢复:针(zhen)对大模型稳定(ding)性难题(ti),创新CheckPoint加(jia)速方案利用RDMA技术,将百GB级(ji)备份恢复时间从数分(fen)钟压缩至(zhi)1秒(miao),提升GPU有(you)效算(suan)力利用率。


基于平(ping)湖架构KUAE2智算(suan)集群,无论千卡或更(geng)大规模,在(zai)每(mei)个应用场(chang)景都(dou)能(neng)做到(dao)比国外主(zhu)流产品更(geng)高的性能(neng)和(he)效率(lv),达到(dao)行业领先水平(ping)。
5、零中断容错技术,提升集群的稳定性和可靠性
在(zai)构建(jian)高效集群的基础(chu)上,稳定(ding)可靠(kao)的运行环境(jing)是(shi)“AI工厂”持续产(chan)出(chu)的保(bao)障(zhang)。特别在(zai)万(wan)卡级AI集群中(zhong),硬件故障(zhang)导致的训练(lian)中(zhong)断会严重(zhong)浪费算力。
摩尔线程创新推出零中断容错技术,故(gu)障发生时(shi)仅(jin)隔离(li)受影响节(jie)点组,其余节(jie)点继续训练(lian),备机无缝接入,全程无中断。这一方案使(shi)KUAE集群有效训练(lian)时(shi)间(jian)占比超99%,大幅降低恢复开销。

同时(shi),KUAE集(ji)群(qun)(qun)通过多维度训(xun)(xun)练(lian)(lian)洞察体(ti)系实现动态(tai)监测与(yu)(yu)智能诊断,异常处理效率提(ti)升(sheng)50%,让用户看得(de)(de)见和管理得(de)(de)到每(mei)一(yi)个(ge)训(xun)(xun)练(lian)(lian)集(ji)群(qun)(qun)的每(mei)一(yi)片GPU;结合集(ji)群(qun)(qun)巡检(jian)与(yu)(yu)起(qi)飞检(jian)查,训(xun)(xun)练(lian)(lian)成(cheng)功(gong)率提(ti)高10%,为大规模AI训(xun)(xun)练(lian)(lian)提(ti)供稳定(ding)保障。

二、MUSA软件栈如何助力KUAE集群?三大亮点技术详解
摩尔(er)线程(cheng)GPU计算软件开发总监吴庆分享了MUSA软件栈的主要亮(liang)点技术。

1、MUSA驱动和运行时库,KUAE集群坚实底座
推理(li)场景(jing)对Kernel延时非常敏感(gan)。极致高效的MUSA驱动(dong)和运行(xing)时库,具有(you)高效率的任务调度(du)能力,使用户的Kernel launch开销极致缩减。
(1)即时任务下发:通(tong)过(guo)软硬协同(tong),将核(he)函数启动延迟(chi)降低到业(ye)界平均水平的1/2。
(2)批量任务下发:批量下发计算(suan)和通信(xin)任务(wu),将近千次(ci)下发开销优化(hua)为单次(ci),减少(shao)GPU等待时(shi)间。
(3)引擎间依赖解析:GPU是多引(yin)(yin)擎可配置的,不同(tong)引(yin)(yin)擎之间要做依赖(lai)解(jie)析、交互同(tong)步(bu),平(ping)湖支持硬件解(jie)析引(yin)(yin)擎间的依赖(lai)做同(tong)步(bu),不再回到host,任务流之间的依赖(lai)解(jie)析延时可以大(da)幅降(jiang)低(di)至1.5μs,优于业界头部算力卡。
(4)调优工具接口MUPTI:专(zhuan)门用于(yu)性能分析和事件(jian)追踪,帮助开(kai)发(fa)者优化(hua)MUSA应用程序,可(ke)基(ji)于(yu)MUPTI开(kai)发(fa)第三(san)方的(de)各(ge)种丰富工具。
(5)GPU错误转存功能(GPU Core Dump,GCD):高效定(ding)位疑难Bug,不需要去(qu)(qu)调度大(da)量的(de)集群和人力(li)反复(fu)去(qu)(qu)复(fu)现(xian)(xian)“昙花一现(xian)(xian)”的(de)错误(wu),用于在GPU程序崩溃或发生错误(wu)时(shi)生成详细的(de)信(xin)息(类似CPU程序Core Dump),精确(que)保存错误(wu),提供一个log,极大(da)提升MUSA核函数崩溃、非法(fa)显存地址访(fang)问、硬件错误(wu)等问题定(ding)位的(de)效率。

2、MUSA算子库生态日趋完善,性能与广度兼备
算(suan)(suan)子(zi)库的效率直接关乎分布式(shi)集群的训练效率。MUSA算(suan)(suan)子(zi)库不(bu)仅(jin)追求极致性能(neng),还(hai)兼容覆(fu)盖广度和兼容性。
MUSA算子库生态会提供三大算子库:极致性能muDNN、易用MUTLASS、MUSA AI Tensor Engine开源推理算子库。

muDNN,是一款(kuan)极致性能(neng)的(de)开箱即用标(biao)准算子库,完整覆盖(gai)常(chang)见的(de)前向(xiang)和反向(xiang)算子。其(qi)中(zhong)最主要的(de)特(te)性是支持完整的(de)XMMA,支持Tensor Core全精(jing)度及(ji)所有量化模式,以及(ji)常(chang)用的(de)神经网络(luo)算子操作。
一般来(lai)说,矩阵乘的效(xiao)(xiao)率大部分可以(yi)做(zuo)(zuo)到90%以(yi)上(shang),摩尔线程muDNN矩阵乘算子效(xiao)(xiao)率可以(yi)做(zuo)(zuo)到98%。Flash Attention算子因为多了softmax等(deng)操作,基(ji)于国际一流水(shui)平厂商的Flash Attention 3论文里提到的效(xiao)(xiao)率大约(yue)是75%,muDNN的Flash Attention可以(yi)做(zuo)(zuo)到95%。
影响FP8 GEMM算子效(xiao)率的(de)重要因(yin)素是(shi)scale模式,scale是(shi)为了避(bi)免精(jing)度损失做(zuo)的(de)一个精(jing)细化的(de)缩放(fang)因(yin)子,常见的(de)有Per-Tensor、Per-Block,DeepSeek V3用(yong)的(de)是(shi)Per-Block。
吴庆打(da)了个比(bi)方,Per-Tensor scale是(shi)整个张量(liang)共(gong)(gong)用一(yi)个缩放因子,相当于(yu)一(yi)面(mian)(mian)墙(qiang)刷(shua)一(yi)个颜(yan)色,很好刷(shua);Per-Block scale则(ze)是(shi)每个小(xiao)的(de)矩阵块共(gong)(gong)用一(yi)个缩放因子,相当于(yu)一(yi)面(mian)(mian)墙(qiang)有很多小(xiao)方块,每个方块单独一(yi)个颜(yan)色,刷(shua)墙(qiang)的(de)复杂度要高很多,会(hui)比(bi)一(yi)个颜(yan)色刷(shua)一(yi)面(mian)(mian)墙(qiang)效率低10%-20%。
摩(mo)尔线(xian)程通过软硬(ying)协同的深度算(suan)(suan)法优化、指(zhi)令(ling)编排,做到了Per-Block跟Per-Tensor FP8 GEMM计算(suan)(suan)效率几乎相当,差距(ju)不到2%。

MUTLASS,是一个(ge)高(gao)性(xing)能的(de)线性(xing)代数(shu)模板库,可(ke)极大降(jiang)低在MUSA环境中自(zi)定义算子的(de)开发(fa)(fa)工作(zuo)量,相(xiang)当(dang)于提供了一个(ge)可(ke)供二次开发(fa)(fa)的(de)模板。
MUTLASS已在Github上开源,支持平湖架(jia)构所有(you)特性,包(bao)括Warp-level MMA、WarpSquad-level MMA、TensorMemoryEngine、AsyncBarrier等原语全面支持,同(tong)时提供(gong)高性能矩阵乘、卷积算子实现,可(ke)在Kernel里调用(yong)模板库就可(ke)以(yi)进行二(er)次开发,摩尔线程(cheng)也(ye)提供(gong)Attention最优化的示例,给(ji)用(yong)户打样,可(ke)以(yi)参考提供(gong)的最佳(jia)实践,去开发自定义的各(ge)种Attention的变种。
MUSA AI Tensor Engine,是摩尔(er)线程即将发布的(de)面(mian)向大语言模型的(de)开(kai)源推理(li)(li)算子库,可(ke)帮助开(kai)发者快速搭建自(zi)定(ding)义(yi)推理(li)(li)引擎。
MUSA AI Tensor Engine,是摩尔线(xian)程(cheng)即(ji)将发(fa)布的(de)(de)面向大(da)语言(yan)模(mo)型的(de)(de)开源推(tui)理(li)算(suan)子库,可帮助开发(fa)者快(kuai)速搭建自(zi)定义推(tui)理(li)引(yin)擎。 该算(suan)子库提供用(yong)户友好的(de)(de)Python API,进(jin)一步降低(di)开发(fa)者使(shi)用(yong)门槛,无(wu)需花太(tai)多时(shi)间学习(xi)MUSA C,只要会Python就可以把MTX这(zhei)个(ge)库用(yong)起来;未(wei)来会支(zhi)持丰富的(de)(de)后(hou)端,包括模(mo)板库,对标(biao)PTX虚拟指令集(ji)去(qu)开发(fa)的(de)(de)极(ji)致算(suan)子库,也支(zhi)持类Triton的(de)(de)DSL。
3、高性能集合通信库及通算并行,避免通信抢占计算核心资源
大模(mo)型(xing)分布式训(xun)练的主(zhu)要瓶颈是通信。摩尔线程(cheng)在MTT S5000上支持MTLINK 2.0,配备GPU异步(bu)通信引(yin)擎,实(shi)现了(le)高性(xing)能通信技术(shu)与计(ji)算(suan)高度(du)并行(xing)。
最(zui)近十几年,随着模型规模增加,分布(bu)式集群规模也(ye)在(zai)增加,通信(xin)瓶(ping)颈会越来越明(ming)显。DeepSeek V3报告中呼吁(yu)硬件(jian)厂商提供的(de)芯片能不能做一个单独的(de)通信(xin)硬件(jian)来卸载(zai)通信(xin),避免通信(xin)跟计算去抢SM计算单元。
平湖设计阶段远早于DeepSeek V3发布的时间,彼时摩尔线程已洞察(cha)到行业(ye)痛点,并提供了(le)(le)解决方案——在GPU上增(zeng)加了(le)(le)一个(ge)异步(bu)通(tong)信引擎。

MTT S5000服务器拓(tuo)扑每(mei)节点有8张(zhang)GPU,通过MTLINK 2.0全互(hu)连,每(mei)张(zhang)GPU与(yu)其(qi)他(ta)7张(zhang)GPU都有直连总线。
每个GPU上(shang)配置的(de)异步通(tong)信引擎是原(yuan)生支(zhi)持(chi)(chi)丰(feng)富的(de)reduce操作(zuo),支(zhi)持(chi)(chi)常用(yong)的(de)reduce操作(zuo)有(you)ADD、MIN、MAX(累加、最小值(zhi)、最大值(zhi))等操作(zuo),支(zhi)持(chi)(chi)Float、FP16、BF16等数据类型,可直接通(tong)过MTLink进(jin)行C2C跨(kua)系统的(de)数据通(tong)信。
其ACE通(tong)过(guo)Zero Copy技术进(jin)一步提升性能。一般的集合(he)通(tong)信会把(ba)(ba)数(shu)据buffer拷贝到通(tong)信buffer里,再(zai)去进(jin)行C2C通(tong)信。Zero Copy则避免了在本(ben)地上的D2D的拷贝,直(zhi)接(jie)把(ba)(ba)数(shu)据buffer做(zuo)跨卡通(tong)信。
摩尔线程在衡量集合通信库性能的时候主要是两大核心指标:通信延迟、通信带宽。
基于(yu)全互(hu)联(FC8)拓扑的(de)高效通信算(suan)法(fa),可(ke)(ke)大幅降低通信延(yan)迟。全互(hu)联拓扑中GPU两两互(hu)连(lian),在All Reduce场景中可(ke)(ke)以把其他GPU的(de)数据一次性拿过来,理论(lun)上FC8算(suan)法(fa)相比(bi)Ring算(suan)法(fa),7步(bu)通信可(ke)(ke)变成1步(bu)完成。在单机8卡All Reduce延(yan)迟场景的(de)实测也差不多(duo),Ring算(suan)法(fa)大概是53us,用FC8算(suan)法(fa)可(ke)(ke)降低至7.8us,将近缩减(jian)至1/7,显著提升(sheng)了模型推理性能(neng)。
带宽方面,Ring算(suan)法与FC8算(suan)法效率(lv)相当,以(yi)Ring算(suan)法为例,摩尔线程把FC8拆成了7个通(tong)信(xin)环(huan),每(mei)个通(tong)信(xin)环(huan)结(jie)合通(tong)信(xin)Kernel的优(you)(you)化,基于(yu)MTLink2.0 + FC8拓扑(pu),节(jie)点内充(chong)分利用全(quan)互(hu)联的拓扑(pu)优(you)(you)势,可做到单机8卡All Reduce带宽利用率(lv)接近85%,与国(guo)际第一(yi)的厂(chang)商在软件效率(lv)上对齐,实现高效的Scale-up通(tong)信(xin)。

高效Scale-out跨节点通(tong)(tong)信(xin)(xin)(xin)方面,摩尔线程结(jie)合通(tong)(tong)信(xin)(xin)(xin)库做了(le)网(wang)卡拓扑感知与自(zi)适应优化(hua),每(mei)个GPU都(dou)能在PCIe拓扑上找(zhao)到延迟和带(dai)宽效率(lv)(lv)最高的网(wang)卡端口进行(xing)RDMA通(tong)(tong)信(xin)(xin)(xin),还额(e)外开发了(le)一个插件Smart NIC Adaptor,在配置4张双口网(wang)卡时(shi),可实现和8张单口网(wang)卡一样的RDMA通(tong)(tong)信(xin)(xin)(xin)效率(lv)(lv)。
经测(ce)试,其All Reduce带(dai)宽(kuan)可以做到(dao)194GB/s,RDMA通信带(dai)宽(kuan)利用率达到(dao)97%,而一般RDMA通信带(dai)宽(kuan)利用率约在80%-85%。

除了(le)延(yan)迟和带宽之外,摩尔(er)线程还做(zuo)了(le)异步通(tong)信引擎的通(tong)信优化。
MPC是计(ji)算核心(xin)。传统做法是通信也走(zou)MPC,就要分(fen)走(zou)一(yi)部分(fen)的计(ji)算单(dan)元。ACE则(ze)可(ke)以把(ba)通信部分(fen)卸载到单(dan)独的通信引擎上,不跟MPC抢计(ji)算资源(yuan),同(tong)时在(zai)无数(shu)据依赖时完(wan)全(quan)做到overlap,通过优(you)化,结合MT Transformer Engine,在(zai)Llama模型上端到端计(ji)算通信性(xing)能可(ke)提升10%左右。

三、基于FP8的国产万卡训练,摩尔线程软硬件如何撑起行业需求?
摩尔线程副(fu)总裁(cai)王华给(ji)基(ji)于FP8的国产万卡训练划了3个重点(dian):
1、大模型训练需要更强大的智算集群;2、低精度可有效提升训练效率;3、可靠性对大规模训练至关重要。
大模型需要大集(ji)群已是(shi)行业共(gong)识,不(bu)必赘述(shu)。
用更低精度的数据类型进行训练,相当于实现了算力翻倍。精度降低一半,能带来的优势是算力翻倍,显存占用、显存带宽、传输带宽消耗减半。
但低精度替换只能部分进行,无法完全替代。一些精度敏感环节,如非线性函数/归一化操作,仍需保留高精度计算。

从技(ji)术演进(jin)来看(kan),精度格(ge)式正(zheng)沿(yan)着FP32→TF32→FP16/BF16→FP8的路径发展(zhan)。近两(liang)年,FP8训练技(ji)术取得多项进(jin)展(zhan)。
DeepSeek-V3使(shi)(shi)(shi)用(yong)了FP8混合精(jing)度(du)(du)训练,主(zhu)(zhu)要策略(lve)有:前向(xiang)(xiang)和后向(xiang)(xiang)传播的3次(ci)GEMM使(shi)(shi)(shi)用(yong)FP8,激活值(zhi)的缓存和传输使(shi)(shi)(shi)用(yong)FP8,Embedding、激活函数(shu)等模块使(shi)(shi)(shi)用(yong)高精(jing)度(du)(du)浮点数(shu),主(zhu)(zhu)权重、权重梯度(du)(du)、优(you)化器状态使(shi)(shi)(shi)用(yong)高精(jing)度(du)(du)浮点数(shu)。
摩尔线程的全功能GPU,是率先支持FP8的国产GPU,对FP8的训练提供了软硬件支持,基于摩尔线程软件栈,成功复现了DeepSeek-V3满血版训练。

其软件栈开源了3个(ge)组(zu)件:
(1)提供MUSA后端加速支持的Torch-MUSA:PyTorch的MUSA插件,最新(xin)版本率(lv)先在国产GPU上实现了(le)对FP8数据类(lei)型的完(wan)整支持。
(2)混合并行训练框架MT-MegatronLM:支(zhi)持FP8混合精(jing)度训练、高(gao)性能muDNN库和MCCL通信库。
(3)MT-TransformerEngine:主要用于(yu)Transformer的高效训(xun)练和推理优化,支持FP8混合(he)精度训(xun)练,通过算子融合(he)、并行加速等技术提升(sheng)训(xun)推效率。
经实验,基于(yu)摩(mo)尔(er)线(xian)程(cheng)KUAE集群,在(zai)Llama3 8B、Qwen、DeepSeek-V2 16B、DeepSeek-V3 30B上,采(cai)用FP8混(hun)合训练(lian)可以带来20%~30%的(de)性能提升,且引入(ru)FP8前后loss曲线(xian)基本一(yi)致。在(zai)采(cai)用FP8训练(lian)方(fang)面,摩(mo)尔(er)线(xian)程(cheng)GPU计算(suan)卡与国际主(zhu)流计算(suan)卡的(de)精(jing)度对比基本吻合。
在(zai)Scaling Factor的选择上,摩尔线程也做了(le)许多(duo)探(tan)索,例(li)如:amax的统计信息表(biao)明,Per-Tensor的Scaling Factor适(shi)合采用Delayed Scaling策略(lve),而(er)Per-Block则(ze)适(shi)合采用JIT Scaling策略(lve)。
摩尔(er)线(xian)程还用自(zi)家GPU计算卡做了Smooth SwiGLU论文的复现,发现通过Smooth SwiGLU可(ke)以有效降(jiang)低outlier的影响。

此外,摩尔线程开(kai)源的模(mo)(mo)拟仿真器Simumax可用于大(da)规模(mo)(mo)集(ji)群训练,支(zhi)持多种(zhong)并(bing)(bing)行策(ce)略(lve)(lve)(lve)、多种(zhong)模(mo)(mo)型架构、各种(zhong)优(you)化策(ce)略(lve)(lve)(lve)以及并(bing)(bing)行策(ce)略(lve)(lve)(lve)、超参(can)、优(you)化策(ce)略(lve)(lve)(lve)的自动(dong)扫描。

最后,大规模集群训练的可靠性非常重要。
摩(mo)尔(er)线程做了很多相(xiang)关工作,进行全生命周期管理监控:
(1)训练检查(起飞、飞行、落地):起(qi)飞检查是在训练开始前,对(dui)硬软件和通信(xin)的检查,自(zi)动(dong)替换故障(zhang)节点;飞行检查中,发现(xian)训练亚健康问题;落地检查是停掉训练后,定(ding)位故障(zhang)节点,提取故障(zhang)上下文。
(2)慢节点探测:分(fen)布式(shi)训练中慢(man)节(jie)点(dian)(dian)会拖(tuo)慢(man)整个(ge)训练的速度;起飞检(jian)查阶段节(jie)点(dian)(dian)两两配对,检(jian)查小负载的执行(xing)时间;训练阶段统计(ji)每个(ge)节(jie)点(dian)(dian)计(ji)算(suan)和(he)通信执行(xing)的时间。
(3)容错训练:大规模(mo)训练场景使用(yong)大量节点(dian),会导(dao)致训练故障率指数级升高(gao);同(tong)步模(mo)式(shi)转成异步模(mo)式(shi),单节点(dian)故障就不会影响整(zheng)体训练;还有高(gao)效的(de)故障发现与恢复机制。
结语:国产AI计算基础设施,已具备规模化、高效率、高可靠模型生产能力
摩尔(er)线(xian)程以打造(zao)先进的(de)(de)(de)“AI工厂(chang)”为目标(biao),凭借全功能GPU的(de)(de)(de)通用(yong)计算能力、创新(xin)的(de)(de)(de)MUSA架构、优化的(de)(de)(de)MUSA软件栈(zhan)、自研的(de)(de)(de)KUAE集群(qun)、零中断(duan)容(rong)错(cuo)技术五大(da)(da)核心要素,构建起高效的(de)(de)(de)“AI工厂(chang)”,为AI大(da)(da)模型训练提供了强大(da)(da)而(er)可靠的(de)(de)(de)基础设(she)施支持(chi)。
“只(zhi)有(you)这样的组合,才(cai)能(neng)确保(bao)每一个环节都(dou)做到最好,100% X 100% X 100%,才(cai)能(neng)确保(bao)100%的成(cheng)功率(lv),也是业(ye)界(jie)最好的效(xiao)率(lv)。”张建中说(shuo)。
依托AI工厂,摩尔(er)线程(cheng)成功构(gou)建(jian)起(qi)覆盖”训(xun)练-推理-部署”全流程(cheng)的高(gao)效体系。这标(biao)志着国产计算基础设施,已具备支撑AGI时代规(gui)模化、高(gao)效率、高(gao)可(ke)靠模型生产的关键能力。
从图形渲染基石到AI算力引(yin)擎,摩(mo)尔线程正(zheng)以“KUAE+MUSA”为智算业务核心,推动全功(gong)能GPU驱动的(de)AI技术在物理(li)仿真、AIGC、科学计算、具(ju)身智能、智能体、医疗影像分(fen)析、工业大模(mo)型等关(guan)键领域的(de)应用(yong)与(yu)部署。

二、MUSA软件栈如何助力KUAE集群?三大亮点技术详解