直击国产AI芯片生存现状：GPU造血，TPU突袭，Chiplet成大势，网络卡脖子

芯东西（公众号：aichip001）
作者 | GACS

芯(xin)东(dong)西9月(yue)6日报道，一年一度的(de)全球AI芯(xin)片峰会（GACS 2024）今日在北京火爆开幕(mu)。现场座无虚(xu)席，云直播全网观看人数(shu)达到120万人次。

▲会场(chang)内和(he)场(chang)外展台人潮涌动

大会由智一科(ke)技旗下(xia)芯(xin)东西(xi)联合智猩(xing)猩(xing)发起主办，以「智算(suan)纪元共筑芯(xin)路」为(wei)主题，邀请(qing)50+位嘉宾来自AI芯(xin)片、Chiplet、RISC-V、智算(suan)集群、AI Infra等领(ling)域的嘉宾与会作干货分享。

正值(zhi)国产GPGPU独角兽壁仞科技(ji)成(cheng)立五周年，会上(shang)，壁仞科技(ji)宣(xuan)布取得多(duo)芯混(hun)训(xun)核心技(ji)术(shu)突破，打造出(chu)异构GPU协同训(xun)练方案HGCT，业界首次能(neng)够支持3种(zhong)及以上(shang)异构GPU训(xun)练同一个大(da)模型。

▲壁仞科(ke)技推出国产(chan)异构GPU协同训练(lian)方案HGCT

智一科技联合创始人、CEO龚伦常作为主办(ban)方发表致辞，今年是(shi)(shi)全球AI芯(xin)片峰(feng)会举办(ban)的(de)第(di)七年，峰(feng)会已成为国内在该领域里(li)最有影响(xiang)力的(de)行业会议，是(shi)(shi)了解(jie)国内外(wai)AI芯(xin)片发展动(dong)态的(de)重要窗口。

▲智一科技联合创始人、CEO龚伦常(chang)

全球AI芯片峰会为期(qi)两日(ri)，主会场包(bao)括(kuo)开幕式和三大专场（AI芯片架构、数据中心AI芯片、边(bian)缘(yuan)端AI芯片），分会场包(bao)括(kuo)Chiplet技术论(lun)坛、智算(suan)集群技术论(lun)坛和RISC-V创(chuang)新论(lun)坛。

在开幕式上，清华大学教授、集(ji)成(cheng)电路学院副(fu)院长尹首一以《高算力芯(xin)片发展(zhan)路径(jing)探讨：从计算架构到(dao)集(ji)成(cheng)架构》为题进(jin)行主题报告(gao)，系统性(xing)复(fu)盘了高算力芯(xin)片存(cun)在的技术(shu)(shu)挑战(zhan)，并全面(mian)分析五条创新技术(shu)(shu)路径(jing)：数据流(liu)芯(xin)片、存(cun)算一体芯(xin)片、可重构芯(xin)片、三维(wei)集(ji)成(cheng)芯(xin)片、晶圆级芯(xin)片。

今日(ri)有21位来(lai)自顶尖高(gao)校及(ji)科(ke)研院所、AI芯(xin)(xin)片(pian)企业的(de)专(zhuan)家、创业者(zhe)及(ji)高(gao)管进行分享。其中，高(gao)端对话环节邀请了三家AI芯(xin)(xin)片(pian)创企代(dai)表激(ji)情交(jiao)辩，分别是国产大算力芯(xin)(xin)片(pian)独角(jiao)(jiao)兽壁(bi)仞科(ke)技、端侧与边缘侧AI芯(xin)(xin)片(pian)独角(jiao)(jiao)兽爱芯(xin)(xin)元(yuan)智，还有一家仅创立半年的(de)年轻AI芯(xin)(xin)片(pian)创企凌(ling)川科(ke)技。他(ta)们集(ji)中探(tan)讨了AI芯(xin)(xin)片(pian)产业现状、最新实践与进阶方向。

一、破解大模型算力供需挑战，架构创新突围性能瓶颈

清华(hua)大(da)(da)学教授(shou)、集(ji)成电(dian)路学院副(fu)院长尹首一解读了(le)大(da)(da)模型(xing)时代(dai)算力(li)供需间的困难(nan)：芯(xin)片工艺(yi)(yi)面(mian)(mian)临Scaling-down极限(xian)，致使工艺(yi)(yi)红(hong)利带来的算力(li)提升难(nan)以为继；系统面(mian)(mian)临Scaling-out瓶颈，通信带宽不足导致系统性能(neng)损失。

破(po)解这两大难题的(de)机会在于算(suan)力芯片(pian)计算(suan)架构(gou)(gou)和(he)集成(cheng)架构(gou)(gou)的(de)联合(he)创新：计算(suan)架构(gou)(gou)创新使每个晶体管都(dou)被充分利用、发挥(hui)更(geng)强算(suan)力；集成(cheng)架构(gou)(gou)创新使芯片(pian)规(gui)模能够突破(po)极限。

当前高(gao)算(suan)力(li)芯(xin)片发展(zhan)有(you)(you)五条新技(ji)术路(lu)径(jing)(jing)：数据流(liu)芯(xin)片、可(ke)重构芯(xin)片、存算(suan)一体芯(xin)片、三(san)维(wei)集(ji)成芯(xin)片、晶(jing)圆级芯(xin)片。这些路(lu)径(jing)(jing)都不完全依赖于(yu)最先进的制造工艺，有(you)(you)助于(yu)为国(guo)内芯(xin)片产业(ye)开辟算(suan)力(li)提升新空间。

▲清华大学教授(shou)、集成电路学院(yuan)副院(yuan)长尹首一

AMD在端到端的AI基(ji)础设施领域打造了(le)全面(mian)的产品(pin)线，覆盖从数据中(zhong)心服务器(qi)、AI PC到智能嵌入式和边缘设备，并提供领先的AI开源软件及(ji)开放的生(sheng)态系统(tong)。AMD基(ji)于(yu)先进ZEN4架(jia)构(gou)设计的CPU处理器(qi)平台、基(ji)于(yu)CDNA3架(jia)构(gou)面(mian)向AI推理&训练的MI系列(lie)加速器(qi)，已被微软等巨头采用。

据(ju)AMD人(ren)工智(zhi)能(neng)事业部(bu)高(gao)级总监王(wang)宏强分享，AMD还在(zai)推动数据(ju)中心高(gao)性(xing)能(neng)网(wang)络基础设施（UALink，Ultra Ethernet），这(zhei)对AI网(wang)络结(jie)构需要支持快速切换和(he)极(ji)低延迟、扩(kuo)展AI数据(ju)中心性(xing)能(neng)至关重(zhong)要。

AMD即将(jiang)发布(bu)下(xia)一(yi)代高性(xing)(xing)能AI PC，其基于(yu)第(di)二代XDNA架构(gou)的Ryzen AI NPU，可提供(gong)50TOPS算力(li)，将(jiang)能效比(bi)提高至通用架构(gou)的35倍。在(zai)AI PC对隐私、安全(quan)和数据自(zi)主性(xing)(xing)的推动下(xia)，重(zhong)要的AI工作(zuo)负载(zai)开始部署在(zai)PC上。作(zuo)为全(quan)球领(ling)先的AI基础设施提供(gong)商(shang)之一(yi)，AMD愿意携手广大客户与开发者共建变革(ge)性(xing)(xing)未来。

▲AMD人(ren)工智能事业部高级总监王宏强

自(zi)2015年以来，高通一直(zhi)在(zai)根(gen)据AI应用(yong)用(yong)例(li)的变化，不断革新NPU硬件设(she)计(ji)。以第三(san)代骁龙8为代表，高通AI引擎采用(yong)集(ji)成(cheng)CPU、GPU、NPU等(deng)多种处(chu)理(li)器的异构(gou)计(ji)算架(jia)构(gou)。其中，高通Hexagon NPU通过(guo)大片上(shang)内存、加速器专用(yong)电源、微架(jia)构(gou)升(sheng)级等(deng)设(she)计(ji)来优化性能(neng)和能(neng)效(xiao)。AI的用(yong)例(li)丰富(fu)，算力要求不一，因此异构(gou)计(ji)算和处(chu)理(li)器集(ji)成(cheng)的需求会长期存在(zai)，这也将带来峰值性能(neng)、能(neng)效(xiao)、成(cheng)本等(deng)方面的一系列提升(sheng)。

高通的(de)产品线覆盖(gai)手机、PC、XR、汽车、IoT等丰富的(de)边缘侧(ce)应用场(chang)景，能够(gou)支持开(kai)发者在不(bu)同产品形(xing)态中(zhong)利用高通的(de)AI软硬件解决(jue)方案进行(xing)算(suan)法(fa)加速，为消费者带来丰富的(de)终端侧(ce)AI体验和用例。最后，高通AI产品技术中(zhong)国区(qu)负责人万卫星还预告，搭载最新(xin)的(de)高通Oryon CPU的(de)下一代(dai)骁龙(long)移动平台，即(ji)将在今年10月21-23日(ri)举(ju)行(xing)的(de)骁龙(long)峰会(hui)上(shang)发布(bu)。

▲高通AI产品技(ji)术中国区负责人万卫(wei)星

苹芯(xin)科技(ji)(ji)联合创始人兼CEO杨越拆(chai)解了存算(suan)一体技(ji)(ji)术(shu)(shu)的(de)(de)进阶过程(cheng)。产业界主流芯(xin)片(pian)的(de)(de)出现(xian)和成长与当(dang)下(xia)计算(suan)需求的(de)(de)特点紧(jin)密相关(guan)，2015年前(qian)后，计算(suan)体系结构中的(de)(de)计算(suan)瓶(ping)颈从处理器端(duan)向存储端(duan)迁移，尤其是神经网络的(de)(de)出现(xian)，加(jia)快了AI芯(xin)片(pian)计算(suan)效率(lv)的(de)(de)提升(sheng)节奏，存算(suan)技(ji)(ji)术(shu)(shu)因此受(shou)到关(guan)注。

杨越(yue)认为(wei)，在(zai)大模型时代(dai)，存(cun)算一体技(ji)术的机会是能够在(zai)有数据存(cun)储(chu)的地方都加入计算。随着软(ruan)件不断发展，基于存(cun)算的端(duan)(duan)侧芯片今年已经逐(zhu)步成熟。未来，在(zai)云端(duan)(duan)解决数据带宽瓶颈，或将成为(wei)存(cun)算芯片下一个杀手(shou)级应用。

▲苹芯科(ke)技联合创始人兼CEO杨越

北极(ji)(ji)雄芯(xin)(xin)(xin)CTO谭展(zhan)宏谈道，在(zai)(zai)高(gao)性(xing)能计(ji)算领域，服(fu)务(wu)器(qi)(qi)设计(ji)有两种不同(tong)的范式(shi)：标准(zhun)服(fu)务(wu)器(qi)(qi)形态和定制服(fu)务(wu)器(qi)(qi)架构。在(zai)(zai)标准(zhun)服(fu)务(wu)器(qi)(qi)形态下，北极(ji)(ji)雄芯(xin)(xin)(xin)关注于在(zai)(zai)标准(zhun)约(yue)束的面积(ji)下，通过合适的芯(xin)(xin)(xin)粒(li)拆分与(yu)封装方案(an)，实现更高(gao)的性(xing)价比；在(zai)(zai)非标准(zhun)服(fu)务(wu)器(qi)(qi)形态下，提供了(le)晶圆级集成的机会，关注于芯(xin)(xin)(xin)片(pian)(pian)与(yu)系统设计(ji)一体化，对(dui)服(fu)务(wu)器(qi)(qi)与(yu)芯(xin)(xin)(xin)片(pian)(pian)进行协同(tong)设计(ji)，旨在(zai)(zai)达到“服(fu)务(wu)器(qi)(qi)即芯(xin)(xin)(xin)片(pian)(pian)”的目标。

特别地，谭(tan)展宏强调了不(bu)同芯(xin)片的(de)设计(ji)有(you)不(bu)同的(de)带宽(kuan)需(xu)(xu)求，例如在7nm以上工艺下，结合部(bu)署通信(xin)优化，往(wang)往(wang)不(bu)需(xu)(xu)要(yao)很高(gao)的(de)互连带宽(kuan)密度，因此先进封(feng)装并不(bu)是必需(xu)(xu)的(de)，基(ji)于2D的(de)封(feng)装即可满足性(xing)能需(xu)(xu)求并实(shi)现(xian)(xian)高(gao)性(xing)价比方案。北极雄芯(xin)基(ji)于《芯(xin)粒互联接口标准》的(de)PB-Link IP，正式(shi)实(shi)现(xian)(xian)了低封(feng)装成本的(de)互连实(shi)现(xian)(xian)，目前已开始对外授(shou)权。

▲北(bei)极雄芯CTO谭展宏

二、高端对话：国产AI芯片造血能力增强，最年轻创企产品已落地快手

智一科(ke)技联(lian)合(he)创(chuang)(chuang)始人、总(zong)编辑张(zhang)国仁，与壁仞(ren)科(ke)技副总(zong)裁兼AI软件首席架构师(shi)丁云帆(fan)，凌川科(ke)技联(lian)合(he)创(chuang)(chuang)始人、副总(zong)裁刘理(li)，爱芯(xin)元智联(lian)合(he)创(chuang)(chuang)始人、副总(zong)裁刘建(jian)伟，展开(kai)了一场以“国产AI芯(xin)片(pian)落(luo)地的(de)共(gong)识、共(gong)创(chuang)(chuang)与共(gong)赢”为主题(ti)的(de)圆(yuan)桌(zhuo)对话。

张国(guo)仁在圆桌对话(hua)开始(shi)时称(cheng)，由智东西、芯(xin)(xin)(xin)东西、智猩猩发起(qi)举办(ban)六届(jie)的AI芯(xin)(xin)(xin)片峰(feng)会(hui)(hui)，是国(guo)内该领域持续时间(jian)最长的专业会(hui)(hui)议，这几年见(jian)证了(le)AI芯(xin)(xin)(xin)片和大模型(xing)的蓬(peng)勃发展，也(ye)见(jian)证了(le)一批国(guo)内造芯(xin)(xin)(xin)“新(xin)势力”的崛起(qi)。

▲智一(yi)科技联(lian)合创(chuang)始人、总编辑张国仁

丁云帆谈道，大算力(li)芯(xin)片(pian)是技(ji)术密集(ji)、人才(cai)密集(ji)、资金密集(ji)的(de)行(xing)业。作(zuo)为市场中已(yi)(yi)公(gong)开(kai)融资规模最大的(de)芯(xin)片(pian)独(du)角兽，壁(bi)仞科技(ji)拥(yong)有顶级人才(cai)，第一代(dai)产品已(yi)(yi)量(liang)产落(luo)(luo)地(di)，多个国(guo)产GPU千卡集(ji)群(qun)已(yi)(yi)经落(luo)(luo)地(di)，能独(du)立(li)造(zao)血(xue)。但国(guo)产芯(xin)片(pian)行(xing)业整体情况仍然不易(yi)，生态方(fang)面和国(guo)外仍有差距。

很多国(guo)产AI芯(xin)片已经开(kai)始落地于(yu)数据中(zhong)(zhong)心(xin)、智算中(zhong)(zhong)心(xin)。在(zai)丁(ding)云帆(fan)看来，英伟达(da)面向国(guo)内的产品(pin)性(xing)(xing)(xing)价比并不高，国(guo)产芯(xin)片只(zhi)要能做出性(xing)(xing)(xing)能、做出性(xing)(xing)(xing)价比，就会有市场。目前(qian)国(guo)内芯(xin)片产业(ye)落地消息越来越多、造血能力增强(qiang)，与英伟达(da)之(zhi)间的差(cha)距会逐渐缩(suo)小。

▲壁(bi)仞科(ke)技副(fu)总裁兼AI软件首(shou)席架构师丁云帆

刘建伟认(ren)为，低成本是(shi)(shi)很重要的部分，企(qi)业最终(zhong)还(hai)是(shi)(shi)要算账，企(qi)业对(dui)基础(chu)设施的投资一定要赚回来。刘理相信(xin)后(hou)期(qi)在具身智能、智能视(shi)频等细分赛道，更(geng)多企(qi)业的进入，将带来比通(tong)用产品(pin)更(geng)高的价值(zhi)，会(hui)压缩英伟达的营收和利润。

凌川科(ke)技是最(zui)年轻的国内AI芯(xin)(xin)片(pian)创(chuang)企之一(yi)，今年3月刚成(cheng)立(li)，已完成(cheng)一(yi)轮(lun)融资，目前在售的智能视频处理芯(xin)(xin)片(pian)已落地(di)快(kuai)手，占快(kuai)手视频处理领域用量的99%，大算(suan)力推理芯(xin)(xin)片(pian)预计明年初流片(pian)。

在刘理(li)看来(lai)，距离AI芯片市(shi)场窗口关闭还很远，面对巨头在资源(yuan)、资金(jin)、生态上的优势(shi)，创企需要在垂直、细分领域(yu)发(fa)力。凌(ling)川(chuan)科技将智能视频处理(li)、AI推理(li)算(suan)力结合，目标是(shi)将其每Token推理(li)成(cheng)本降(jiang)到英伟(wei)达H800的10%。

▲凌川科(ke)技联合创始人、副总裁刘理

面向端侧(ce)、边(bian)缘侧(ce)的(de)爱(ai)芯(xin)元(yuan)智(zhi)，市(shi)占率均取(qu)得了瞩目(mu)的(de)成绩(ji)。刘建伟认为这两个领域实(shi)现(xian)商(shang)业闭环(huan)(huan)的(de)速(su)度会更快(kuai)。他补充(chong)说，做AI芯(xin)片最终一(yi)定会赚钱，但(dan)实(shi)际盈利的(de)时间(jian)表会受到AI部署成本等因素(su)的(de)影响，企业应(ying)尽(jin)快(kuai)实(shi)现(xian)自我(wo)造(zao)血和闭环(huan)(huan)。未来，爱(ai)芯(xin)元(yuan)智(zhi)将在端侧(ce)和边(bian)缘侧(ce)大模型落地场景进行(xing)探(tan)索。

爱(ai)芯(xin)元(yuan)智(zhi)在汽车领(ling)域(yu)的产(chan)品出货量(liang)十分(fen)可观，刘建伟谈道，这是(shi)(shi)因(yin)为智(zhi)慧城市(shi)和汽车的底(di)层芯(xin)片技(ji)术类似，爱(ai)芯(xin)元(yuan)智(zhi)在智(zhi)慧城市(shi)上积累了成(cheng)熟技(ji)术再进入智(zhi)能驾(jia)驶可以较快实现量(liang)产(chan)。同时，汽车领(ling)域(yu)价(jia)格战将推动产(chan)业分(fen)工是(shi)(shi)机遇期。

▲爱(ai)芯元(yuan)智联合创(chuang)始人、副(fu)总裁刘(liu)建伟

对于国产AI芯片(pian)如何快速找到生态位，刘建伟以爱(ai)芯元智的(de)(de)深(shen)耕场景为(wei)例，智慧(hui)城市基本没有国外公司，在智能驾驶领(ling)域(yu)英伟达开拓0到1阶段(duan)(duan)，1到100更(geng)关注成本的(de)(de)阶段(duan)(duan)就是国内企业的(de)(de)机会。丁云帆提到四个要(yao)素(su)：稳定可靠的(de)(de)供应保障、性(xing)价比(bi)、针对客户需(xu)求提供高效支持服务、高效易用。刘理认为(wei)应该在垂直领(ling)域(yu)深(shen)耕，做出比(bi)通(tong)用芯片(pian)更(geng)高效、优化的(de)(de)解决方案。

展(zhan)(zhan)望未(wei)来，刘(liu)(liu)建伟预测未(wei)来4-5年，端(duan)侧和云(yun)(yun)侧都(dou)将出现(xian)很大的(de)(de)发展(zhan)(zhan)机遇，产业界(jie)落地成本降(jiang)低后(hou)，数据可(ke)以实现(xian)更(geng)大的(de)(de)价值。刘(liu)(liu)理认为(wei)随着(zhe)AI应用迎来爆发期，云(yun)(yun)侧将产生大量推(tui)理需求。丁云(yun)(yun)帆谈到国内的(de)(de)高端(duan)算(suan)力(li)仍然(ran)稀(xi)缺，但产业链的(de)(de)协同可(ke)以实现(xian)稳健的(de)(de)发展(zhan)(zhan)。

三、智算中心建设潮起：壁仞GPU新突破，国产TPU拼落地，Chiplet赢麻了

在(zai)下午举(ju)行的(de)数据中(zhong)心(xin)AI芯片专场(chang)，Habana中(zhong)国区负责人于明扬谈道，近(jin)三年有大(da)约50+政(zheng)府主导的(de)智算中(zhong)心(xin)陆续(xu)建成、60+在(zai)规划和建设中(zhong)，智算中(zhong)心(xin)建设逐(zhu)渐(jian)(jian)从一线城市(shi)向二三线城市(shi)下沉，从政(zheng)府主导逐(zhu)渐(jian)(jian)转(zhuan)向企业(ye)主导，对成本(ben)压(ya)缩、投(tou)资(zi)回(hui)报周期的(de)要求也逐(zhu)渐(jian)(jian)提升。

据他(ta)观察，当(dang)前大(da)模型(xing)开发日趋成熟(shu)，推理(li)(li)需求(qiu)持续(xu)增长(zhang)，头部CSP自研推理(li)(li)芯(xin)片的增速将提高，未来推理(li)(li)侧可能培育出多家异构芯(xin)片企业。

国外大(da)模型(xing)训练需(xu)求仍(reng)将(jiang)旺(wang)盛，国内(nei)模型(xing)训练对算(suan)力的需(xu)求基本饱和，主要(yao)来(lai)自微调业务。要(yao)支(zhi)撑未来(lai)AI发展，Chiplet、高(gao)(gao)速大(da)容量内(nei)存(cun)、私有/通用高(gao)(gao)速互(hu)联技术的融(rong)合将(jiang)起关键作用。

▲Habana中国区负责人(ren)于明扬(yang)

为了打破大(da)模(mo)型异(yi)构(gou)算力孤(gu)岛难题(ti)，壁(bi)(bi)仞(ren)科技副总裁兼AI软件首席(xi)架构(gou)师丁云帆宣布(bu)推出(chu)壁(bi)(bi)仞(ren)自主原创的(de)异(yi)构(gou)GPU协同(tong)训(xun)(xun)练方案HGCT。这是业界(jie)首次实现(xian)支持(chi)3种及以上异(yi)构(gou)GPU协同(tong)训(xun)(xun)练同(tong)一(yi)个大(da)模(mo)型，即支持(chi)用「英(ying)伟(wei)达(da)+壁(bi)(bi)仞(ren)+其他品(pin)牌(pai)GPU」混训(xun)(xun)，通信效率大(da)于98%，端到端训(xun)(xun)练效率达(da)到90~95%。

壁仞(ren)正在联合客(ke)户、合作伙伴等共同推动异构GPU协同训(xun)练生态，包括中国(guo)电信、中兴(xing)通讯、商汤科(ke)技(ji)、国(guo)网智研院、上海(hai)智能算力科(ke)技(ji)有限公司(si)、上海(hai)人工智能实验室、中国(guo)信通院等。

其产(chan)品(pin)已(yi)在多个千卡GPU集群开始商用落地。壁仞(ren)研发了软硬一体、全栈(zhan)优(you)化、异构(gou)协(xie)同、开源开放的大模型整体解决方案。壁仞(ren)首次实现(xian)大模型3D并行任务自动弹性扩缩(suo)容，保持集群利用率近100%；已(yi)实现(xian)千卡集群千亿参(can)数模型10分(fen)钟自动恢(hui)复、4天无故障、15天不中断的效(xiao)果。

▲壁仞科技副总裁(cai)兼AI软(ruan)件首(shou)席架构师丁云帆(fan)

中昊芯英联合创始(shi)人(ren)、CTO郑(zheng)瀚寻谈道，如今的AI大模型远超计(ji)算(suan)(suan)历(li)史任一时(shi)刻的计(ji)算(suan)(suan)复杂度(du)和(he)(he)算(suan)(suan)力需求量(liang)，需要更擅长AI计(ji)算(suan)(suan)的专(zhuan)用(yong)芯片。相(xiang)较(jiao)于GPU最初(chu)主要设计(ji)用(yong)于实时(shi)渲染和(he)(he)图像处(chu)理，TPU的设计(ji)则主要用(yong)于机器学习、深度(du)学习模型和(he)(he)神经网络计(ji)算(suan)(suan)，针(zhen)对张量(liang)运算(suan)(suan)进(jin)行了高(gao)度(du)优化，单个的脉动阵列架构吞吐量(liang)和(he)(he)处(chu)理效率相(xiang)较(jiao)GPU有了更大提升。

中(zhong)昊芯英自研的(de)(de)“刹(cha)那”芯片(pian)是(shi)中(zhong)国(guo)首枚已量产的(de)(de)高性(xing)(xing)能TPU架构(gou)AI芯片(pian)，综合测算(suan)(suan)算(suan)(suan)力性(xing)(xing)能、成本(ben)(ben)、能耗后(hou)，单位(wei)算(suan)(suan)力成本(ben)(ben)仅为海外(wai)领先(xian)GPU的(de)(de)50%。郑瀚寻认为，大(da)(da)模型发展后(hou)期，千卡(ka)、万卡(ka)集群(qun)的(de)(de)最佳(jia)费效(xiao)比(bi)将至关重(zhong)要，刹(cha)那芯片(pian)多达(da)1024片(pian)芯片(pian)间的(de)(de)直接高速互(hu)联，在构(gou)建大(da)(da)规模计算(suan)(suan)集群(qun)时的(de)(de)系统集群(qun)性(xing)(xing)性(xing)(xing)能可(ke)远超传统GPU数(shu)倍(bei)。

▲中昊(hao)芯(xin)英(ying)联合创始人、CTO郑瀚寻(xun)

据浪(lang)潮信(xin)息(xi)开(kai)放(fang)加速计算(suan)产品负责人Stephen Feng分(fen)享，随(sui)着(zhe)大(da)模(mo)型参数规模(mo)增加，生(sheng)成式AI的发展(zhan)面临四(si)大(da)挑战：集(ji)群扩展(zhan)性不足、芯片功耗(hao)高(gao)、集(ji)群部(bu)署难(nan)、系统可靠性低(di)四(si)大(da)挑战。浪(lang)潮信(xin)息(xi)始终坚持(chi)以应用为导(dao)向，以系统为核心(xin)，通(tong)过开(kai)元开(kai)放(fang)的系统激(ji)发生(sheng)成式 AI 创新活力。

在硬件(jian)开放(fang)方(fang)面，通过(guo)建立(li)OAM（开放(fang)加(jia)(jia)速(su)(su)模(mo)(mo)(mo)块）规范，加(jia)(jia)速(su)(su)先进算力(li)的上线部署，支撑(cheng)大模(mo)(mo)(mo)型(xing)及AI应(ying)用的迭代加(jia)(jia)速(su)(su)。在软件(jian)开放(fang)方(fang)面，通过(guo)大模(mo)(mo)(mo)型(xing)开发(fa)平台“元脑企智”EPAI ，为企业打(da)造(zao)全流程(cheng)应(ying)用开发(fa)支撑(cheng)平台，通过(guo)端到端的解(jie)(jie)决(jue)(jue)方(fang)案，解(jie)(jie)决(jue)(jue)基础大模(mo)(mo)(mo)型(xing)落地到领域存在的幻觉问题，解(jie)(jie)决(jue)(jue)应(ying)用开发(fa)流程(cheng)复杂、门(men)槛(jian)高(gao)，多元多模(mo)(mo)(mo)适配难、成本(ben)高(gao)等落地难题，加(jia)(jia)速(su)(su)企业大模(mo)(mo)(mo)型(xing)应(ying)用创新与落地。

▲浪潮信息开(kai)放加速计(ji)算产(chan)品负责人Stephen Feng

清程极智成立(li)于2023年，聚(ju)焦AI Infra赛(sai)道(dao)，团队孵化(hua)于清华大学(xue)计算机系(xi)，在(zai)智能算力(li)优(you)化(hua)方面，已(yi)经(jing)(jing)积累了(le)十几(ji)年的经(jing)(jing)验。

清程(cheng)极智联(lian)合创始人师天麾分享道(dao)，国产(chan)高性能(neng)算力(li)系统(tong)正(zheng)面临着故障恢复难、性能(neng)亚健康等方面的挑战，需要10大(da)核心基础(chu)软件系统(tong)配合，清程(cheng)极智已在(zai)其中过半数领域拥(yong)有自(zi)研产(chan)品。

目前，清程极智已掌握了从底(di)层编译器(qi)到(dao)上层并行(xing)计(ji)算系统的(de)全(quan)栈技术积(ji)累，实现大(da)模(mo)型(xing)(xing)(xing)行(xing)业生态(tai)的(de)全(quan)栈式(shi)覆盖，完成(cheng)多个在国(guo)(guo)产芯片的(de)高(gao)吞吐(tu)量推理(li)优化和主流大(da)模(mo)型(xing)(xing)(xing)的(de)快速移植和优化，计(ji)算效果提升明显。其中，面向超(chao)大(da)规(gui)模(mo)国(guo)(guo)产算力集群研制的(de)大(da)模(mo)型(xing)(xing)(xing)训(xun)练(lian)系统“八(ba)卦炉”，可扩展到(dao)全(quan)机10万台(tai)服务器(qi)规(gui)模(mo)，用于训(xun)练(lian)174万亿(yi)参数量的(de)模(mo)型(xing)(xing)(xing)。

▲清程极智联合创始(shi)人师(shi)天麾

芯(xin)和半导体技术市场总监黄晓波谈道，算(suan)力(li)(li)需求(qiu)过(guo)去20年(nian)增长6万(wan)倍，未(wei)来10年(nian)可能达10万(wan)倍，存储、互联带宽成(cheng)(cheng)为主(zhu)要发(fa)展瓶颈。Chiplet集成(cheng)(cheng)系统成(cheng)(cheng)为后摩尔时代先进工艺制(zhi)程限制(zhi)和高性(xing)能算(suan)力(li)(li)提升突(tu)破的重要方向，已(yi)经广泛(fan)应用于AI大(da)算(suan)力(li)(li)芯(xin)片(pian)和AI算(suan)力(li)(li)集群网(wang)络交换芯(xin)片(pian)。

对此，芯和半导体为Chiplet集成系统的(de)设计开发提(ti)供了一站式(shi)多(duo)物理场仿真(zhen)EDA平台(tai)(tai)。该(gai)平台(tai)(tai)支持主流(liu)工艺设计互连结构参数(shu)化建模(mo)，求解(jie)仿真(zhen)能力比其他平台(tai)(tai)快10倍，内(nei)存仅占1/20，并内(nei)置HBM/UCIe协议(yi)分析以提(ti)升仿真(zhen)效(xiao)率，获国内(nei)外(wai)多(duo)家头部AI算力芯片设计厂商(shang)使用，帮助大算力Chiplet集成系统产品的(de)加速落地。

▲芯和半导体技术(shu)市场总监黄晓波

在大模型训(xun)练(lian)过(guo)程中，网络(luo)基础设(she)施(shi)的(de)开销占比达(da)到30%，凸显(xian)了网络(luo)性(xing)(xing)能的(de)重(zhong)要(yao)(yao)性(xing)(xing)。据奇异摩尔联(lian)合(he)创始人、产品及解(jie)决(jue)方案副总(zong)裁祝俊(jun)东分享(xiang)，网络(luo)已成为智算(suan)性(xing)(xing)能瓶颈，构(gou)建AI网络(luo)需要(yao)(yao)三网融合(he)，即集群网间互连(lian)、机柜内互连(lian)，芯片内的(de)互联(lian)。

大(da)智算(suan)集群需要高性(xing)能(neng)(neng)互连，Modernize RDMA与(yu)Chiplet成为关键技术。为了优化RDMA，奇(qi)异摩(mo)尔的(de)NDSA网(wang)络加(jia)速(su)芯粒系列(lie)基于可(ke)编(bian)程众核(he)流(liu)式(shi)架构(gou)，通(tong)过高性(xing)能(neng)(neng)的(de)数(shu)据(ju)(ju)引(yin)擎，实现(xian)高性(xing)能(neng)(neng)数(shu)据(ju)(ju)流(liu)及(ji)灵活数(shu)据(ju)(ju)加(jia)速(su)。奇(qi)异摩(mo)尔首创的(de)GPU Link Chiplet “NDSA-G2G”，基于以太基础(chu)设(she)施，通(tong)过高性(xing)能(neng)(neng)数(shu)据(ju)(ju)引(yin)擎和D2D接口(kou)技术，可(ke)实现(xian)Scale-Up网(wang)络TB级高带(dai)宽，性(xing)能(neng)(neng)媲美全球互连技术的(de)标杆。

▲奇异摩(mo)尔联合创始人(ren)、产品及(ji)解决(jue)方案副总裁祝俊东

Alphawave是(shi)一家针对(dui)HPC、AI和高速网络应用提供(gong)IP、Chiplet和ASIC设计解决方案(an)的企(qi)业。其亚太地区(qu)高级(ji)业务总监郭(guo)大玮分享(xiang)说(shuo)，针对(dui)数据(ju)在传输过程中面临的问题，Alphawave IP产品的误码率比竞品低2个数量(liang)级(ji)，还(hai)可辅助进行(xing)集成和验证，并(bing)与Arm生态(tai)深度融(rong)合。他们(men)还(hai)能为客户的SoC提供(gong)全生命周(zhou)期的支持。

Chiplet方面(mian)，Alphawave帮助客户(hu)缩短(duan)周期，降低成本，提升了良率和迭代速度(du)，目(mu)前(qian)已(yi)做出行业内第一(yi)款多协议IO连(lian)接Chiplet，今年已(yi)经流(liu)(liu)片。定(ding)制芯(xin)片方面(mian)，Alphawave主要专注于(yu)7nm以下(xia)的工艺，可根据客户(hu)需求完成从规格(ge)到(dao)流(liu)(liu)片的全流(liu)(liu)程，目(mu)前(qian)已(yi)实现超375次成功流(liu)(liu)片，DPPM小(xiao)于(yu)25。

▲Alphawave亚(ya)太地(di)区(qu)高级业务总监郭(guo)大玮(wei)

结语：下游智能化风起云涌，AI芯片迎历史机遇

在(zai)迈(mai)向通用人工(gong)智能终极议题的(de)(de)道(dao)路上，AI算法的(de)(de)形态(tai)不断(duan)变化，AI芯(xin)片也与之相(xiang)随。当古老的(de)(de)沙砾邂逅未来的(de)(de)机(ji)器智能，技术与工(gong)程(cheng)智慧(hui)交融(rong)碰撞，一颗颗凝集(ji)(ji)了精(jing)微设计的(de)(de)AI芯(xin)片走进计算集(ji)(ji)群，步入千(qian)家万(wan)户，托载起硅(gui)基生命的(de)(de)进化。

从智(zhi)(zhi)算中心(xin)、智(zhi)(zhi)能驾驶(shi)到AI PC、AI手机、新(xin)型AI硬(ying)件，下游智(zhi)(zhi)能化(hua)风潮为锚定(ding)不同场(chang)景(jing)的(de)AI芯片(pian)(pian)都带来了新(xin)一波历史机遇(yu)。快速发展的(de)生成式AI算法及(ji)应用不断解锁(suo)新(xin)的(de)算力挑战。技术创(chuang)新(xin)和市场(chang)需(xu)求正双(shuang)重推动AI芯片(pian)(pian)市场(chang)规模(mo)扩大，并(bing)推动AI芯片(pian)(pian)的(de)竞争格局趋(qu)于多(duo)元。

9月7日，2024全球AI芯片(pian)峰会将(jiang)继续密(mi)集(ji)输送干货(huo)：主会场(chang)将(jiang)举(ju)行AI芯片(pian)架构创新(xin)专(zhuan)场(chang)、边缘/端侧AI芯片(pian)专(zhuan)场(chang)，公布「2024中(zhong)(zhong)国(guo)智(zhi)算集(ji)群(qun)(qun)解决方案企业TOP 20」、「2024中(zhong)(zhong)国(guo)AI芯片(pian)新(xin)锐企业TOP 10」两大榜单；分会场(chang)将(jiang)举(ju)行智(zhi)算集(ji)群(qun)(qun)技术论(lun)坛、中(zhong)(zhong)国(guo)RISC-V计算芯片(pian)创新(xin)论(lun)坛。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、破解大模型算力供需挑战，架构创新突围性能瓶颈

二、高端对话：国产AI芯片造血能力增强，最年轻创企产品已落地快手

三、智算中心建设潮起：壁仞GPU新突破，国产TPU拼落地，Chiplet赢麻了

结语：下游智能化风起云涌，AI芯片迎历史机遇

相关推荐