芯东西(公众号:aichip001)
编辑 | 全球AI芯片峰会

9月17日,2025全球AI芯片峰会在上海举行,在峰会主论坛上,奎芯科技联合创始⼈兼副总裁唐睿以《Chiplet,AI算(suan)力的基石》为主题发表演讲。

当前AI革命与过往互联网产业发展不同,利润高度向硬件环节倾斜。唐睿称,随着模型尺寸不断变大、算力需求飙升,科技(ji)企业的CAPEX(资(zi)本性(xing)支出(chu))大(da)幅增(zeng)长且逐渐取代OPEX(运(yun)营性(xing)支出(chu))成为(wei)主流趋势,这是因为(wei)AI整体的性(xing)能与互(hu)联带(dai)宽、内(nei)存容量深度绑定。

同时,当下芯片设计周期远跟不(bu)上AI算力或(huo)者模型发(fa)展的(de)需求(qiu),在唐睿看来,基于Chiplet的设计能加快芯片研发迭代。2021年(nian)-2030年(nian)处理器预计(ji)研发项目数(shu)量年(nian)化增长(zhang)约9%,但基于Chiplet的设计(ji)年(nian)化增长(zhang)率高达(da)44%,预计(ji)2030年(nian)占比(bi)超一(yi)半。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

基于这一现状,奎芯打造了基于UCle标准接(jie)口IP的国产化(hua)完(wan)整解决(jue)方案,研发了两代(dai)(dai)UCle IP,第一代(dai)(dai)为(wei)16GT/s,第二代(dai)(dai)为(wei)32GT/s,且在标准封装实(shi)现。这些IP具有高性(xing)能(neng)、低功(gong)耗、灵活性(xing)等优(you)势,能(neng)为(wei)芯片快速迭(die)代(dai)(dai)提供(gong)支(zhi)持。

以下为唐睿的演讲实录:

ChatGPT爆发到(dao)现在只(zhi)有不到(dao)三年(nian)时间,芯(xin)片设(she)(she)计(ji)周期一般至少两到(dao)三年(nian),所(suo)以芯(xin)片设(she)(she)计(ji)的周期远(yuan)(yuan)远(yuan)(yuan)跟不上AI算力或者AI模型发展的需求。

怎么才能加快芯片的研发速度、提升芯片研发的周期?Chiplet是长期(qi)的趋势,还(hai)可以(yi)增加(jia)下(xia)游(you)芯片设计(ji)公司的迭代速度

一、硬件公司获得大部分利润,科技公司资本性支出大涨

首(shou)先介绍(shao)一(yi)下AI产业的发展趋势。

目前(qian)的模(mo)型(xing)智能化程度越(yue)来越(yue)高(gao),下图是AI基准测试提供商Artificial Analysis所给(ji)出的最新模(mo)型(xing)智能水平综合(he)排名(ming)。

该排名综合了十项测试标准,包括数学基准测试AIME以及推理能力的Benchmark等。排名第一的GPT-5发布于今年8月,排名第二的Grok 4发布于今年7月,以及国产通义千问、DeepSeek-V3.1等模型也发布不久,这说明模型的(de)性能更新日新月异

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

在(zai)整个AI产(chan)业(ye)中,哪些(xie)公司或者哪些(xie)相关的产(chan)业(ye)在(zai)挣钱?

AI革命和此前互联网产业革命略有不同。因为目前仍是硬(ying)件公司获得大部分利润,一些分析师预计今(jin)年英伟(wei)达(da)的数(shu)据中心(xin)营(ying)收(shou)会达(da)到1800亿(yi)(yi)(yi)(yi)(yi)美(mei)元(yuan)(yuan)(折(zhe)合人民(min)币(bi)约(yue)1.3万亿(yi)(yi)(yi)(yi)(yi)元(yuan)(yuan));博通最新的第三季(ji)度(du)财报显示,其数(shu)据中心(xin)相关(guan)的AI硬件(jian)营(ying)收(shou)是(shi)52亿(yi)(yi)(yi)(yi)(yi)美(mei)元(yuan)(yuan)(折(zhe)合人民(min)币(bi)约(yue)370亿(yi)(yi)(yi)(yi)(yi)元(yuan)(yuan));台积电今(jin)年第二季(ji)度(du)的HPC营(ying)收(shou)也(ye)超过180亿(yi)(yi)(yi)(yi)(yi)美(mei)元(yuan)(yuan)(折(zhe)合人民(min)币(bi)约(yue)1279亿(yi)(yi)(yi)(yi)(yi)元(yuan)(yuan)),占总(zong)营(ying)收(shou)的80%。

而最(zui)上层的(de)应用层,如OpenAI、Anthropic的(de)ARR(年(nian)度经(jing)常(chang)性收(shou)入(ru))并不(bu)是很高。今年(nian)7月,OpenAI最(zui)新ARR数(shu)据是120亿美元(yuan)(折合人(ren)民币(bi)约853亿元(yuan))左(zuo)右,Anthropic大概在50亿美元(yuan)(折合人(ren)民币(bi)约355亿元(yuan))左(zuo)右。

其余数据(ju)中心相关公司获取了大部分的行(xing)业利润(run)和(he)营收,包(bao)括(kuo)EDA和(he)IP公司。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

为了实现AGI,五大科技(ji)巨头的(de)资本支出非常惊人。

到(dao)今年(nian)第二季度(du),五(wu)大科技公司的(de)CAPEX(资本(ben)(ben)性支出)已经飙升到(dao)970亿美(mei)元(yuan)一个季度(du)。除(chu)了这(zhei)五(wu)大科技公司,刚(gang)刚(gang)上市的(de)CoreWave今年(nian)预(yu)计CAPEX达到(dao)230亿美(mei)元(yuan),此(ci)外甲骨(gu)文在最新财(cai)报会议中透(tou)露,预(yu)计2026年(nian)的(de)资本(ben)(ben)支出达到(dao)350亿美(mei)元(yuan)震(zhen)惊(jing)业界,这(zhei)主要是因(yin)为OpenAI与其签订合同,预(yu)计2030年(nian)甲骨(gu)文云(yun)营收(shou)达到(dao)1440亿美(mei)元(yuan)。

这个趋势印证了一个变化,这些公司的财报显示,公司OPEX(经营性支出)在这几年几乎没有增加,甚至还有略微下降,这可能与公司裁员有关,也说明CAPEX取代OPEX的(de)现象已(yi)经(jing)在发生。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

到2025年6月,美国数据中心的支(zhi)出已经(jing)接近于办公(gong)室建设支(zhi)出,大概都(dou)在400亿(yi)美元左右(you),这也进一步验(yan)证了大公(gong)司CAPEX超过(guo)OPEX的趋(qu)势。

为什么需要这么大的CAPEX?因为模型尺寸不断变大,虽然闭源模型的尺寸可能不完全透明和公开,但开源模型尺寸非常惊人,如Kimi K2的总参数规模达到1万亿。这样的模型尺寸(cun)就(jiu)意味着需(xu)要庞大的算(suan)(suan)力资(zi)源去(qu)支撑模型训练,整体算(suan)(suan)力需(xu)求(qiu)每(mei)年以4倍的速度增长

除了算力,模型训练和推理对内存、互联带宽的(de)需求(qiu)也在不断提(ti)升。

目前AI整体(ti)的性能(neng)还是(shi)被(bei)互联带宽以及内存容量(liang)所绑定

下面(mian)是一张比较(jiao)老生常谈的图(tu),20年间芯片算力提(ti)升(sheng)了6万(wan)倍(bei),但是内存带宽只增(zeng)(zeng)加了100倍(bei)、互联带宽只增(zeng)(zeng)加了30倍(bei)。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

这背后的(de)原因是,算(suan)力(li)与(yu)芯片(pian)(pian)面积成(cheng)(cheng)正(zheng)比,IO的(de)带宽或接触内存的(de)Beachfront与(yu)芯片(pian)(pian)周长(zhang)成(cheng)(cheng)正(zheng)比,带宽会随着芯片(pian)(pian)周长(zhang)线性增(zeng)加(jia),但算(suan)力(li)可以随周长(zhang)增(zeng)长(zhang)呈几何平方(fang)增(zeng)加(jia),因此带宽永远(yuan)跟不上算(suan)力(li)的(de)增(zeng)长(zhang)。

二、基于UCle标准接口IP,打造国产化完整解决方案

下面介绍一下奎芯的IP和Chiplet产业。

最(zui)新的主流(liu)AI芯片非常重视互(hu)联(lian)带宽和内存(cun)容量,包括英伟达的GB300、AMD的MI355X都采用(yong)了(le)最(zui)新的HBM3E内存(cun)。NVLink的带宽已经高达大概3.6TB/s,Infinity Fabric接近于1TB互(hu)联(lian)带宽。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

整个(ge)数据中(zhong)心(xin)中(zhong),CPU之间或XPU之间的互(hu)(hu)联、XPU和(he)Switch之间的互(hu)(hu)联以及整个(ge)数据中(zhong)心(xin)的Scale-Out和(he)Scale-Up,都离不开互(hu)(hu)联IP的支撑。

目前芯片(pian)设(she)计逐步(bu)走向(xiang)Chiplet化(hua)(hua),Marvell的(de)数据显示,近十年(nian)(nian)整体芯片(pian)的(de)数量(liang)年(nian)(nian)化(hua)(hua)增长(zhang)(zhang)约为(wei)9%左(zuo)右,但是基于Chiplet设(she)计的(de)芯片(pian)数量(liang)年(nian)(nian)化(hua)(hua)增长(zhang)(zhang)为(wei)44%。2021年(nian)(nian),Chiplet base的(de)设(she)计只占(zhan)(zhan)很小部分,预计到2030年(nian)(nian)占(zhan)(zhan)比(bi)将超(chao)过一半。

Open Chiplet Architecture(芯粒架构(gou)(gou)开放标(biao)准)的构(gou)(gou)想(xiang)是,未来会有CPU Chiplet、Memory Chiplet、Base Chiplet、AI Chiplet,构(gou)(gou)成各(ge)家合作共赢的生态(tai),这些Chiplet都可(ke)以(yi)通过UCIe的IP进(jin)行连接。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

下图是一个典型的基于(yu)Chiplet设计(ji)的芯(xin)片,这是AMD最新(xin)GPU,有(you)8个计(ji)算Die、8个HBM3E及(ji)两块很大的IO Die。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

奎芯在UCIe IP以及Chiplet相关领域(yu)的布(bu)局:

首(shou)先奎芯研发了(le)UCIe IP,因为(wei)UCIe IP是连接Chiplet Die的(de)基础,所有(you)的(de)Chiplet小(xiao)芯片都可以(yi)通过UCIe IP去(qu)进行互联。奎芯UCIe IP具(ju)备高性(xing)能、低功耗、国产化(hua)以(yi)及灵活性(xing)等优势。

目前,奎芯已经研发(fa)了两代IP,第一(yi)代速度为16Gbps,第二代为32Gbps。第二代的32Gbps基(ji)于标准封装实现,这在国(guo)内(nei)相当领先且功耗相对(dui)比(bi)较低,基(ji)本上(shang)可(ke)以控制(zhi)在1.0 pJ/bit。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

两块IP已经(jing)进(jin)行(xing)了测(ce)(ce)试(shi),最新的32Gbps测(ce)(ce)试(shi)板(ban)采用5颗Die共封设计,包含1颗Single Die,10mm、25mm Die-to-Dia互连。25mm的UCIe IP测(ce)(ce)试(shi)的眼(yan)图(tu)结(jie)果,奎芯实现了72小时无误码(ma)率(lv),眼(yan)的宽度达到(dao)0.75UI。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

奎(kui)芯的(de)UCIe IP以及Chiplet已经有客(ke)户。下图(tu)是其HPC领域(yu)客(ke)户,结合奎(kui)芯的(de)IO Die,可以帮助客(ke)户实现HBM内存和SoC之(zhi)间的(de)解耦。一个IO Die、SoC上,都对应集成了16个标(biao)准封装的(de)UCIe IP模(mo)组,单向速率可以完(wan)全(quan)匹配或(huo)超过(guo)HBM3的(de)带宽要求。该企业在(zai)整个芯片设(she)计中(zhong),采用了奎(kui)芯8对UCIe IP。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

下面是奎芯ML100 IO Die的(de)设计,这(zhei)是其(qi)整体交付给客户Chiplet Base Design的(de)一部分。

奎芯采(cai)用HBM颗粒和(he)IO Die在interposer(中介(jie)层)上实现共封(feng),但是IO Die UCIe和(he)SoC内UCIe是通过Substrate进行互(hu)连。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

这有如(ru)下几点(dian)好处:第(di)一是(shi)可以解耦(ou)HBM,降(jiang)低(di)SoC的温度对HBM性(xing)能的影响(xiang);第(di)二是(shi)IO Die模组涵盖了(le)HBM颗(ke)粒,可以实现单(dan)独封(feng)装交付(fu),良率(lv)可控;第(di)三是(shi)因为排(pai)除了(le)紧耦(ou)合,单(dan)位SoC的边长可以连接(jie)的HBM颗(ke)粒数量稍多,可进行灵活配置,同时(shi)因为Interposer只用于IO Die和HBM3颗(ke)粒之间互联,使得整体Interposer面积缩(suo)小(xiao);第(di)四是(shi)国产化供应链的解决方案(an),保证了(le)供应链的灵活性(xing)。

下图右边可以看(kan)到Interposer的尺寸以及用了多少Metal,最后(hou)匹配(pei)整体速(su)率(lv),与UCIe IP结合(he)实现相(xiang)对完美的速(su)率(lv)匹配(pei)。这(zhei)是(shi)奎(kui)芯基于UCIe的互(hu)连(lian)扩(kuo)展方案示意(yi)图。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

之(zhi)前很多嘉宾谈到了分离Prefill(预(yu)填充)和(he)(he)Decode(解码)这两(liang)块的(de)计(ji)算,在芯(xin)片设计(ji)领域也(ye)要考虑Prefill和(he)(he)Decode的(de)计(ji)算分离。用IO Die去连接不同(tong)的(de)内存是(shi)经济实惠的(de)方案,那Prefill采(cai)用GDDR和(he)(he)LPDDR就够了。

基(ji)于(yu)奎(kui)芯的整体(ti)解(jie)决方(fang)案,企业(ye)只需要在SoC端(duan)或(huo)者计算(suan)芯片上(shang)放(fang)置其UCIe IP就可(ke)以(yi)(yi),在IO Die上(shang),可(ke)以(yi)(yi)基(ji)于(yu)企业(ye)所需要的内存(cun),在UCIe到HBM的IO Die以(yi)(yi)及(ji)UCIe到LPDDR的IO Die之间(jian)做切换,方(fang)便(bian)于(yu)企业(ye)后面接(jie)外置内存(cun)进行直接(jie)切换,在SoC上(shang)不用放(fang)置不同的PHY,可(ke)以(yi)(yi)节(jie)省SoC面积,同时也(ye)可(ke)以(yi)(yi)把SoC的面积更(geng)多利用来仿真计算(suan)单元。

奎(kui)芯(xin)也在规划研发UCIe到(dao)SerDes的Chiplet,以及UCIe到(dao)Optical Chiplet的解决方案(an)。

三、解读四大长期趋势,建立AI硬件基础服务设施平台公司

最后介绍关于奎芯的(de)未来产品规划以及愿(yuan)景(jing)。

奎芯看到(dao)五到(dao)十(shi)年的(de)长期趋(qu)势包括(kuo):

CPO在逐步取代(dai)LPO和NPO;CPO从Switch端转向(xiang)XPU之间(jian)互联、XPU和内(nei)(nei)存之间(jian)互联;基于HBM4各大内(nei)(nei)存厂家都提出(chu)了(le)Base Die的(de)概念,可能(neng)不需要Phy;国内(nei)(nei)有(you)很多Emerging 3D内(nei)(nei)存技(ji)术、Flash技(ji)术,都会对Base Die提出(chu)更高要求。

奎(kui)芯正在与海外客户研讨(tao)基(ji)于Optical Chiplet的内存以(yi)及互联扩展方案,包(bao)括(kuo)用Optical部分解(jie)决(jue)现在的连线瓶颈,最后(hou)连接到SoC端(duan)(duan)或者是AI计算端(duan)(duan),仍采用UCIe IP,但(dan)是在内存端(duan)(duan)可以(yi)做自(zi)由切换。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

这一方(fang)案(an)脱离了合封限制,用GDDR可(ke)能是更经(jing)济有效的方(fang)案(an),甚至可(ke)以(yi)用LP/GDDR来(lai)做内(nei)存(cun),只要在带宽上满足(zu)对Prefill或(huo)者Decode不(bu)同阶段的内(nei)存(cun)需(xu)求(qiu)。

XPU之间如(ru)果通过(guo)Optical互(hu)联,可以(yi)提升带宽瓶颈,真正(zheng)意(yi)义上(shang)突破了周长受(shou)限模式。

奎芯也在与(yu)国内内存厂商研讨基于新(xin)型内存定制Base Die的方(fang)案,还是通过UCIe IP连接芯片。

其(qi)带宽稍(shao)微低于(yu)HBM,但大大节省(sheng)了成本(ben),同时这种方案采(cai)用标准(zhun)封装(zhuang),省(sheng)掉了Interposer的设计和制(zhi)造成本(ben),整(zheng)体(ti)上可(ke)以降低整(zheng)体(ti)AI系统成本(ben)。再加上方案采(cai)用国(guo)内3D堆叠的DRAM,成本(ben)明显低于(yu)标准(zhun)HBM,供应链(lian)相(xiang)对(dui)可(ke)控。

奎芯科技唐睿:Chiplet将加快国产芯片研发,加码UCIe IP、Chiplet丨GACS 2025

其它海(hai)外(wai)内存大厂(chang)还在(zai)积极推进HBM4 Base Die的(de)(de)研发,这一块奎芯也(ye)在(zai)于海(hai)外(wai)大厂(chang)共同探讨合作,这里面的(de)(de)细节与Base Die的(de)(de)设(she)计有异曲同工的(de)(de)相似之处。

最后是奎芯的愿景和使命。

奎芯是以互联IP起(qi)家的公司(si),未来希望凭借丰富的IP组合,建(jian)立领(ling)先的AI硬件(jian)基础服(fu)务设施(shi)平台公司(si),来引领(ling)AI和Chiplet领(ling)域的创新(xin)。

客(ke)户(hu)只要提供自己与自己算(suan)法(fa)强相关(guan)的(de)(de)核心计算(suan)Die,其(qi)它的(de)(de)非(fei)核心的(de)(de)Die,像IO Die也好(hao),基本的(de)(de)计算(suan)Die也好(hao),以(yi)及(ji)2.5D封装设(she)计也好(hao),都可(ke)以(yi)交给奎芯去做。这样的(de)(de)商业模式(shi),特别(bie)适(shi)合现(xian)在(zai)大(da)模型(xing)的(de)(de)快速迭代(dai)速度(du),以(yi)及(ji)比较感兴趣自己核心算(suan)法(fa)迭代(dai)的(de)(de)大(da)模型(xing)公司(si)或者互联网公司(si)做一些更快速的(de)(de)芯片的(de)(de)迭代(dai)。

谢谢大家!

以上是唐睿演讲内容的完整整理。