芯东西(公众号:aichip001)
作者 | GACS
芯(xin)东(dong)西9月(yue)6日报道,一年一度的(de)全球AI芯(xin)片峰会(GACS 2024)今日在北京火爆开幕(mu)。现场座无虚(xu)席,云直播全网观看人数(shu)达到120万人次。
▲会场(chang)内和(he)场(chang)外展台人潮涌动
大会由智一科(ke)技旗下(xia)芯(xin)东西(xi)联合智猩(xing)猩(xing)发起主办,以「智算(suan)纪元 共筑芯(xin)路」为(wei)主题,邀请(qing)50+位嘉宾来自AI芯(xin)片、Chiplet、RISC-V、智算(suan)集群、AI Infra等领(ling)域的嘉宾与会作干货分享。
正值(zhi)国产GPGPU独角兽壁仞科技(ji)成(cheng)立五周年,会上(shang),壁仞科技(ji)宣(xuan)布取得多(duo)芯混(hun)训(xun)核心技(ji)术(shu)突破,打造出(chu)异构GPU协同训(xun)练方案HGCT,业界首次能(neng)够支持3种(zhong)及以上(shang)异构GPU训(xun)练同一个大(da)模型。
▲壁仞科(ke)技推出国产(chan)异构GPU协同训练(lian)方案HGCT
智一科技联合创始人、CEO龚伦常作为主办(ban)方发表致辞,今年是(shi)(shi)全球AI芯(xin)片峰(feng)会举办(ban)的(de)第(di)七年,峰(feng)会已成为国内在该领域里(li)最有影响(xiang)力的(de)行业会议,是(shi)(shi)了解(jie)国内外(wai)AI芯(xin)片发展动(dong)态的(de)重要窗口。
▲智一科技联合创始人、CEO龚伦常(chang)
全球AI芯片峰会为期(qi)两日(ri),主会场包(bao)括(kuo)开幕式和三大专场(AI芯片架构、数据中心AI芯片、边(bian)缘(yuan)端AI芯片),分会场包(bao)括(kuo)Chiplet技术论(lun)坛、智算(suan)集群技术论(lun)坛和RISC-V创(chuang)新论(lun)坛。
在开幕式上,清华大学教授、集(ji)成(cheng)电路学院副(fu)院长尹首一以《高算力芯(xin)片发展(zhan)路径(jing)探讨:从计算架构到(dao)集(ji)成(cheng)架构》为题进(jin)行主题报告(gao),系统性(xing)复(fu)盘了高算力芯(xin)片存(cun)在的技术(shu)(shu)挑战(zhan),并全面(mian)分析五条创新技术(shu)(shu)路径(jing):数据流(liu)芯(xin)片、存(cun)算一体芯(xin)片、可重构芯(xin)片、三维(wei)集(ji)成(cheng)芯(xin)片、晶圆级芯(xin)片。
今日(ri)有21位来(lai)自顶尖高(gao)校及(ji)科(ke)研院所、AI芯(xin)(xin)片(pian)企业的(de)专(zhuan)家、创业者(zhe)及(ji)高(gao)管进行分享。其中,高(gao)端对话环节邀请了三家AI芯(xin)(xin)片(pian)创企代(dai)表激(ji)情交(jiao)辩,分别是国产大算力芯(xin)(xin)片(pian)独角(jiao)(jiao)兽壁(bi)仞科(ke)技、端侧与边缘侧AI芯(xin)(xin)片(pian)独角(jiao)(jiao)兽爱芯(xin)(xin)元(yuan)智,还有一家仅创立半年的(de)年轻AI芯(xin)(xin)片(pian)创企凌(ling)川科(ke)技。他(ta)们集(ji)中探(tan)讨了AI芯(xin)(xin)片(pian)产业现状、最新实践与进阶方向。
一、破解大模型算力供需挑战,架构创新突围性能瓶颈
清华(hua)大(da)(da)学教授(shou)、集(ji)成电(dian)路学院副(fu)院长尹首一解读了(le)大(da)(da)模型(xing)时代(dai)算力(li)供需间的困难(nan):芯(xin)片工艺(yi)(yi)面(mian)(mian)临Scaling-down极限(xian),致使工艺(yi)(yi)红(hong)利带来的算力(li)提升难(nan)以为继;系统面(mian)(mian)临Scaling-out瓶颈,通信带宽不足导致系统性能(neng)损失。
破(po)解这两大难题的(de)机会在于算(suan)力芯片(pian)计算(suan)架构(gou)(gou)和(he)集成(cheng)架构(gou)(gou)的(de)联合(he)创新:计算(suan)架构(gou)(gou)创新使每个晶体管都(dou)被充分利用、发挥(hui)更(geng)强算(suan)力;集成(cheng)架构(gou)(gou)创新使芯片(pian)规(gui)模能够突破(po)极限。
当前高(gao)算(suan)力(li)芯(xin)片发展(zhan)有(you)(you)五条新技(ji)术路(lu)径(jing)(jing):数据流(liu)芯(xin)片、可(ke)重构芯(xin)片、存算(suan)一体芯(xin)片、三(san)维(wei)集(ji)成芯(xin)片、晶(jing)圆级芯(xin)片。这些路(lu)径(jing)(jing)都不完全依赖于(yu)最先进的制造工艺,有(you)(you)助于(yu)为国(guo)内芯(xin)片产业(ye)开辟算(suan)力(li)提升新空间。
▲清华大学教授(shou)、集成电路学院(yuan)副院(yuan)长尹首一
AMD在端到端的AI基(ji)础设施领域打造了(le)全面(mian)的产品(pin)线,覆盖从数据中(zhong)心服务器(qi)、AI PC到智能嵌入式和边缘设备,并提供领先的AI开源软件及(ji)开放的生(sheng)态系统(tong)。AMD基(ji)于(yu)先进ZEN4架(jia)构(gou)设计的CPU处理器(qi)平台、基(ji)于(yu)CDNA3架(jia)构(gou)面(mian)向AI推理&训练的MI系列(lie)加速器(qi),已被微软等巨头采用。
据(ju)AMD人(ren)工智(zhi)能(neng)事业部(bu)高(gao)级总监王(wang)宏强分享,AMD还在(zai)推动数据(ju)中心高(gao)性(xing)能(neng)网(wang)络基础设施(UALink,Ultra Ethernet),这(zhei)对AI网(wang)络结(jie)构需要支持快速切换和(he)极(ji)低延迟、扩(kuo)展AI数据(ju)中心性(xing)能(neng)至关重(zhong)要。
AMD即将(jiang)发布(bu)下(xia)一(yi)代高性(xing)(xing)能AI PC,其基于(yu)第(di)二代XDNA架构(gou)的Ryzen AI NPU,可提供(gong)50TOPS算力(li),将(jiang)能效比(bi)提高至通用架构(gou)的35倍。在(zai)AI PC对隐私、安全(quan)和数据自(zi)主性(xing)(xing)的推动下(xia),重(zhong)要的AI工作(zuo)负载(zai)开始部署在(zai)PC上。作(zuo)为全(quan)球领(ling)先的AI基础设施提供(gong)商(shang)之一(yi),AMD愿意携手广大客户与开发者共建变革(ge)性(xing)(xing)未来。
▲AMD人(ren)工智能事业部高级总监王宏强
自(zi)2015年以来,高通一直(zhi)在(zai)根(gen)据AI应用(yong)用(yong)例(li)的变化,不断革新NPU硬件设(she)计(ji)。以第三(san)代骁龙8为代表,高通AI引擎采用(yong)集(ji)成(cheng)CPU、GPU、NPU等(deng)多种处(chu)理(li)器的异构(gou)计(ji)算架(jia)构(gou)。其中,高通Hexagon NPU通过(guo)大片上(shang)内存、加速器专用(yong)电源、微架(jia)构(gou)升(sheng)级等(deng)设(she)计(ji)来优化性能(neng)和能(neng)效(xiao)。AI的用(yong)例(li)丰富(fu),算力要求不一,因此异构(gou)计(ji)算和处(chu)理(li)器集(ji)成(cheng)的需求会长期存在(zai),这也将带来峰值性能(neng)、能(neng)效(xiao)、成(cheng)本等(deng)方面的一系列提升(sheng)。
高通的(de)产品线覆盖(gai)手机、PC、XR、汽车、IoT等丰富的(de)边缘侧(ce)应用场(chang)景,能够(gou)支持开(kai)发者在不(bu)同产品形(xing)态中(zhong)利用高通的(de)AI软硬件解决(jue)方案进行(xing)算(suan)法(fa)加速,为消费者带来丰富的(de)终端侧(ce)AI体验和用例。最后,高通AI产品技术中(zhong)国区(qu)负责人万卫星还预告,搭载最新(xin)的(de)高通Oryon CPU的(de)下一代(dai)骁龙(long)移动平台,即(ji)将在今年10月21-23日(ri)举(ju)行(xing)的(de)骁龙(long)峰会(hui)上(shang)发布(bu)。
▲高通AI产品技(ji)术中国区负责人万卫(wei)星
苹芯(xin)科技(ji)(ji)联合创始人兼CEO杨越拆(chai)解了存算(suan)一体技(ji)(ji)术(shu)(shu)的(de)(de)进阶过程(cheng)。产业界主流芯(xin)片(pian)的(de)(de)出现(xian)和成长与当(dang)下(xia)计算(suan)需求的(de)(de)特点紧(jin)密相关(guan),2015年前(qian)后,计算(suan)体系结构中的(de)(de)计算(suan)瓶(ping)颈从处理器端(duan)向存储端(duan)迁移,尤其是神经网络的(de)(de)出现(xian),加(jia)快了AI芯(xin)片(pian)计算(suan)效率(lv)的(de)(de)提升(sheng)节奏,存算(suan)技(ji)(ji)术(shu)(shu)因此受(shou)到关(guan)注。
杨越(yue)认为(wei),在(zai)大模型时代(dai),存(cun)算一体技(ji)术的机会是能够在(zai)有数据存(cun)储(chu)的地方都加入计算。随着软(ruan)件不断发展,基于存(cun)算的端(duan)(duan)侧芯片今年已经逐(zhu)步成熟。未来,在(zai)云端(duan)(duan)解决数据带宽瓶颈,或将成为(wei)存(cun)算芯片下一个杀手(shou)级应用。
▲苹芯科(ke)技联合创始人兼CEO杨越
北极(ji)(ji)雄芯(xin)(xin)(xin)CTO谭展(zhan)宏谈道,在(zai)(zai)高(gao)性(xing)能计(ji)算领域,服(fu)务(wu)器(qi)(qi)设计(ji)有两种不同(tong)的范式(shi):标准(zhun)服(fu)务(wu)器(qi)(qi)形态和定制服(fu)务(wu)器(qi)(qi)架构。在(zai)(zai)标准(zhun)服(fu)务(wu)器(qi)(qi)形态下,北极(ji)(ji)雄芯(xin)(xin)(xin)关注于在(zai)(zai)标准(zhun)约(yue)束的面积(ji)下,通过合适的芯(xin)(xin)(xin)粒(li)拆分与(yu)封装方案(an),实现更高(gao)的性(xing)价比;在(zai)(zai)非标准(zhun)服(fu)务(wu)器(qi)(qi)形态下,提供了(le)晶圆级集成的机会,关注于芯(xin)(xin)(xin)片(pian)(pian)与(yu)系统设计(ji)一体化,对(dui)服(fu)务(wu)器(qi)(qi)与(yu)芯(xin)(xin)(xin)片(pian)(pian)进行协同(tong)设计(ji),旨在(zai)(zai)达到“服(fu)务(wu)器(qi)(qi)即芯(xin)(xin)(xin)片(pian)(pian)”的目标。
特别地,谭(tan)展宏强调了不(bu)同芯(xin)片的(de)设计(ji)有(you)不(bu)同的(de)带宽(kuan)需(xu)(xu)求,例如在7nm以上工艺下,结合部(bu)署通信(xin)优化,往(wang)往(wang)不(bu)需(xu)(xu)要(yao)很高(gao)的(de)互连带宽(kuan)密度,因此先进封(feng)装并不(bu)是必需(xu)(xu)的(de),基(ji)于2D的(de)封(feng)装即可满足性(xing)能需(xu)(xu)求并实(shi)现(xian)(xian)高(gao)性(xing)价比方案。北极雄芯(xin)基(ji)于《芯(xin)粒互联接口标准》的(de)PB-Link IP,正式(shi)实(shi)现(xian)(xian)了低封(feng)装成本的(de)互连实(shi)现(xian)(xian),目前已开始对外授(shou)权。
▲北(bei)极雄芯CTO谭展宏
二、高端对话:国产AI芯片造血能力增强,最年轻创企产品已落地快手
智一科(ke)技联(lian)合(he)创(chuang)(chuang)始人、总(zong)编辑张(zhang)国仁,与壁仞(ren)科(ke)技副总(zong)裁兼AI软件首席架构师(shi)丁云帆(fan),凌川科(ke)技联(lian)合(he)创(chuang)(chuang)始人、副总(zong)裁刘理(li),爱芯(xin)元智联(lian)合(he)创(chuang)(chuang)始人、副总(zong)裁刘建(jian)伟,展开(kai)了一场以“国产AI芯(xin)片(pian)落(luo)地的(de)共(gong)识、共(gong)创(chuang)(chuang)与共(gong)赢”为主题(ti)的(de)圆(yuan)桌(zhuo)对话。
张国(guo)仁在圆桌对话(hua)开始(shi)时称(cheng),由智东西、芯(xin)(xin)(xin)东西、智猩猩发起(qi)举办(ban)六届(jie)的AI芯(xin)(xin)(xin)片峰(feng)会(hui)(hui),是国(guo)内该领域持续时间(jian)最长的专业会(hui)(hui)议,这几年见(jian)证了(le)AI芯(xin)(xin)(xin)片和大模型(xing)的蓬(peng)勃发展,也(ye)见(jian)证了(le)一批国(guo)内造芯(xin)(xin)(xin)“新(xin)势力”的崛起(qi)。
▲智一(yi)科技联(lian)合创(chuang)始人、总编辑张国仁
丁云帆谈道,大算力(li)芯(xin)片(pian)是技(ji)术密集(ji)、人才(cai)密集(ji)、资金密集(ji)的(de)行(xing)业。作(zuo)为市场中已(yi)(yi)公(gong)开(kai)融资规模最大的(de)芯(xin)片(pian)独(du)角兽,壁(bi)仞科技(ji)拥(yong)有顶级人才(cai),第一代(dai)产品已(yi)(yi)量(liang)产落(luo)(luo)地(di),多个国(guo)产GPU千卡集(ji)群(qun)已(yi)(yi)经落(luo)(luo)地(di),能独(du)立(li)造(zao)血(xue)。但国(guo)产芯(xin)片(pian)行(xing)业整体情况仍然不易(yi),生态方(fang)面和国(guo)外仍有差距。
很多国(guo)产AI芯(xin)片已经开(kai)始落地于(yu)数据中(zhong)(zhong)心(xin)、智算中(zhong)(zhong)心(xin)。在(zai)丁(ding)云帆(fan)看来,英伟达(da)面向国(guo)内的产品(pin)性(xing)(xing)(xing)价比并不高,国(guo)产芯(xin)片只(zhi)要能做出性(xing)(xing)(xing)能、做出性(xing)(xing)(xing)价比,就会有市场。目前(qian)国(guo)内芯(xin)片产业(ye)落地消息越来越多、造血能力增强(qiang),与英伟达(da)之(zhi)间的差(cha)距会逐渐缩(suo)小。
▲壁(bi)仞科(ke)技副(fu)总裁兼AI软件首(shou)席架构师丁云帆
刘建伟认(ren)为,低成本是(shi)(shi)很重要的部分,企(qi)业最终(zhong)还(hai)是(shi)(shi)要算账,企(qi)业对(dui)基础(chu)设施的投资一定要赚回来。刘理相信(xin)后(hou)期(qi)在具身智能、智能视(shi)频等细分赛道,更(geng)多企(qi)业的进入,将带来比通(tong)用产品(pin)更(geng)高的价值(zhi),会(hui)压缩英伟达的营收和利润。
凌川科(ke)技是最(zui)年轻的国内AI芯(xin)(xin)片(pian)创(chuang)企之一(yi),今年3月刚成(cheng)立(li),已完成(cheng)一(yi)轮(lun)融资,目前在售的智能视频处理芯(xin)(xin)片(pian)已落地(di)快(kuai)手,占快(kuai)手视频处理领域用量的99%,大算(suan)力推理芯(xin)(xin)片(pian)预计明年初流片(pian)。
在刘理(li)看来(lai),距离AI芯片市(shi)场窗口关闭还很远,面对巨头在资源(yuan)、资金(jin)、生态上的优势(shi),创企需要在垂直、细分领域(yu)发(fa)力。凌(ling)川(chuan)科技将智能视频处理(li)、AI推理(li)算(suan)力结合,目标是(shi)将其每Token推理(li)成(cheng)本降(jiang)到英伟(wei)达H800的10%。
▲凌川科(ke)技联合创始人、副总裁刘理
面向端侧(ce)、边(bian)缘侧(ce)的(de)爱(ai)芯(xin)元(yuan)智(zhi),市(shi)占率均取(qu)得了瞩目(mu)的(de)成绩(ji)。刘建伟认为这两个领域实(shi)现(xian)商(shang)业闭环(huan)(huan)的(de)速(su)度会更快(kuai)。他补充(chong)说,做AI芯(xin)片最终一(yi)定会赚钱,但(dan)实(shi)际盈利的(de)时间(jian)表会受到AI部署成本等因素(su)的(de)影响,企业应(ying)尽(jin)快(kuai)实(shi)现(xian)自我(wo)造(zao)血和闭环(huan)(huan)。未来,爱(ai)芯(xin)元(yuan)智(zhi)将在端侧(ce)和边(bian)缘侧(ce)大模型落地场景进行(xing)探(tan)索。
爱(ai)芯(xin)元(yuan)智(zhi)在汽车领(ling)域(yu)的产(chan)品出货量(liang)十分(fen)可观,刘建伟谈道,这是(shi)(shi)因(yin)为智(zhi)慧城市(shi)和汽车的底(di)层芯(xin)片技(ji)术类似,爱(ai)芯(xin)元(yuan)智(zhi)在智(zhi)慧城市(shi)上积累了成(cheng)熟技(ji)术再进入智(zhi)能驾(jia)驶可以较快实现量(liang)产(chan)。同时,汽车领(ling)域(yu)价(jia)格战将推动产(chan)业分(fen)工是(shi)(shi)机遇期。
▲爱(ai)芯元(yuan)智联合创(chuang)始人、副(fu)总裁刘(liu)建伟
对于国产AI芯片(pian)如何快速找到生态位,刘建伟以爱(ai)芯元智的(de)(de)深(shen)耕场景为(wei)例,智慧(hui)城市基本没有国外公司,在智能驾驶领(ling)域(yu)英伟达开拓0到1阶段(duan)(duan),1到100更(geng)关注成本的(de)(de)阶段(duan)(duan)就是国内企业的(de)(de)机会。丁云帆提到四个要(yao)素(su):稳定可靠的(de)(de)供应保障、性(xing)价比(bi)、针对客户需(xu)求提供高效支持服务、高效易用。刘理认为(wei)应该在垂直领(ling)域(yu)深(shen)耕,做出比(bi)通(tong)用芯片(pian)更(geng)高效、优化的(de)(de)解决方案。
展(zhan)(zhan)望未(wei)来,刘(liu)(liu)建伟预测未(wei)来4-5年,端(duan)侧和云(yun)(yun)侧都(dou)将出现(xian)很大的(de)(de)发展(zhan)(zhan)机遇,产业界(jie)落地成本降(jiang)低后(hou),数据可(ke)以实现(xian)更(geng)大的(de)(de)价值。刘(liu)(liu)理认为(wei)随着(zhe)AI应用迎来爆发期,云(yun)(yun)侧将产生大量推(tui)理需求。丁云(yun)(yun)帆谈到国内的(de)(de)高端(duan)算(suan)力(li)仍然(ran)稀(xi)缺,但产业链的(de)(de)协同可(ke)以实现(xian)稳健的(de)(de)发展(zhan)(zhan)。
三、智算中心建设潮起:壁仞GPU新突破,国产TPU拼落地,Chiplet赢麻了
在(zai)下午举(ju)行的(de)数据中(zhong)心(xin)AI芯片专场(chang),Habana中(zhong)国区负责人于明扬谈道,近(jin)三年有大(da)约50+政(zheng)府主导的(de)智算中(zhong)心(xin)陆续(xu)建成、60+在(zai)规划和建设中(zhong),智算中(zhong)心(xin)建设逐(zhu)渐(jian)(jian)从一线城市(shi)向二三线城市(shi)下沉,从政(zheng)府主导逐(zhu)渐(jian)(jian)转(zhuan)向企业(ye)主导,对成本(ben)压(ya)缩、投(tou)资(zi)回(hui)报周期的(de)要求也逐(zhu)渐(jian)(jian)提升。
据他(ta)观察,当(dang)前大(da)模型(xing)开发日趋成熟(shu),推理(li)(li)需求(qiu)持续(xu)增长(zhang),头部CSP自研推理(li)(li)芯(xin)片的增速将提高,未来推理(li)(li)侧可能培育出多家异构芯(xin)片企业。
国外大(da)模型(xing)训练需(xu)求仍(reng)将(jiang)旺(wang)盛,国内(nei)模型(xing)训练对算(suan)力的需(xu)求基本饱和,主要(yao)来(lai)自微调业务。要(yao)支(zhi)撑未来(lai)AI发展,Chiplet、高(gao)(gao)速大(da)容量内(nei)存(cun)、私有/通用高(gao)(gao)速互(hu)联技术的融(rong)合将(jiang)起关键作用。
▲Habana中国区负责人(ren)于明扬(yang)
为了打破大(da)模(mo)型异(yi)构(gou)算力孤(gu)岛难题(ti),壁(bi)(bi)仞(ren)科技副总裁兼AI软件首席(xi)架构(gou)师丁云帆宣布(bu)推出(chu)壁(bi)(bi)仞(ren)自主原创的(de)异(yi)构(gou)GPU协同(tong)训(xun)(xun)练方案HGCT。这是业界(jie)首次实现(xian)支持(chi)3种及以上异(yi)构(gou)GPU协同(tong)训(xun)(xun)练同(tong)一(yi)个大(da)模(mo)型,即支持(chi)用「英(ying)伟(wei)达(da)+壁(bi)(bi)仞(ren)+其他品(pin)牌(pai)GPU」混训(xun)(xun),通信效率大(da)于98%,端到端训(xun)(xun)练效率达(da)到90~95%。
壁仞(ren)正在联合客(ke)户、合作伙伴等共同推动异构GPU协同训(xun)练生态,包括中国(guo)电信、中兴(xing)通讯、商汤科(ke)技(ji)、国(guo)网智研院、上海(hai)智能算力科(ke)技(ji)有限公司(si)、上海(hai)人工智能实验室、中国(guo)信通院等。
其产(chan)品(pin)已(yi)在多个千卡GPU集群开始商用落地。壁仞(ren)研发了软硬一体、全栈(zhan)优(you)化、异构(gou)协(xie)同、开源开放的大模型整体解决方案。壁仞(ren)首次实现(xian)大模型3D并行任务自动弹性扩缩(suo)容,保持集群利用率近100%;已(yi)实现(xian)千卡集群千亿参(can)数模型10分(fen)钟自动恢(hui)复、4天无故障、15天不中断的效(xiao)果。
▲壁仞科技副总裁(cai)兼AI软(ruan)件首(shou)席架构师丁云帆(fan)
中昊芯英联合创始(shi)人(ren)、CTO郑(zheng)瀚寻谈道,如今的AI大模型远超计(ji)算(suan)(suan)历(li)史任一时(shi)刻的计(ji)算(suan)(suan)复杂度(du)和(he)(he)算(suan)(suan)力需求量(liang),需要更擅长AI计(ji)算(suan)(suan)的专(zhuan)用(yong)芯片。相(xiang)较(jiao)于GPU最初(chu)主要设计(ji)用(yong)于实时(shi)渲染和(he)(he)图像处(chu)理,TPU的设计(ji)则主要用(yong)于机器学习、深度(du)学习模型和(he)(he)神经网络计(ji)算(suan)(suan),针(zhen)对张量(liang)运算(suan)(suan)进(jin)行了高(gao)度(du)优化,单个的脉动阵列架构吞吐量(liang)和(he)(he)处(chu)理效率相(xiang)较(jiao)GPU有了更大提升。
中(zhong)昊芯英自研的(de)(de)“刹(cha)那”芯片(pian)是(shi)中(zhong)国(guo)首枚已量产的(de)(de)高性(xing)(xing)能TPU架构(gou)AI芯片(pian),综合测算(suan)(suan)算(suan)(suan)力性(xing)(xing)能、成本(ben)(ben)、能耗后(hou),单位(wei)算(suan)(suan)力成本(ben)(ben)仅为海外(wai)领先(xian)GPU的(de)(de)50%。郑瀚寻认为,大(da)(da)模型发展后(hou)期,千卡(ka)、万卡(ka)集群(qun)的(de)(de)最佳(jia)费效(xiao)比(bi)将至关重(zhong)要,刹(cha)那芯片(pian)多达(da)1024片(pian)芯片(pian)间的(de)(de)直接高速互(hu)联,在构(gou)建大(da)(da)规模计算(suan)(suan)集群(qun)时的(de)(de)系统集群(qun)性(xing)(xing)性(xing)(xing)能可(ke)远超传统GPU数(shu)倍(bei)。
▲中昊(hao)芯(xin)英(ying)联合创始人、CTO郑瀚寻(xun)
据浪(lang)潮信(xin)息(xi)开(kai)放(fang)加速计算(suan)产品负责人Stephen Feng分(fen)享,随(sui)着(zhe)大(da)模(mo)型参数规模(mo)增加,生(sheng)成式AI的发展(zhan)面临四(si)大(da)挑战:集(ji)群扩展(zhan)性不足、芯片功耗(hao)高(gao)、集(ji)群部(bu)署难(nan)、系统可靠性低(di)四(si)大(da)挑战。浪(lang)潮信(xin)息(xi)始终坚持(chi)以应用为导(dao)向,以系统为核心(xin),通(tong)过开(kai)元开(kai)放(fang)的系统激(ji)发生(sheng)成式 AI 创新活力。
在硬件(jian)开放(fang)方(fang)面,通过(guo)建立(li)OAM(开放(fang)加(jia)(jia)速(su)(su)模(mo)(mo)(mo)块)规范,加(jia)(jia)速(su)(su)先进算力(li)的上线部署,支撑(cheng)大模(mo)(mo)(mo)型(xing)及AI应(ying)用的迭代加(jia)(jia)速(su)(su)。在软件(jian)开放(fang)方(fang)面,通过(guo)大模(mo)(mo)(mo)型(xing)开发(fa)平台“元脑企智”EPAI ,为企业打(da)造(zao)全流程(cheng)应(ying)用开发(fa)支撑(cheng)平台,通过(guo)端到端的解(jie)(jie)决(jue)(jue)方(fang)案,解(jie)(jie)决(jue)(jue)基础大模(mo)(mo)(mo)型(xing)落地到领域存在的幻觉问题,解(jie)(jie)决(jue)(jue)应(ying)用开发(fa)流程(cheng)复杂、门(men)槛(jian)高(gao),多元多模(mo)(mo)(mo)适配难、成本(ben)高(gao)等落地难题,加(jia)(jia)速(su)(su)企业大模(mo)(mo)(mo)型(xing)应(ying)用创新与落地。
▲浪潮信息开(kai)放加速计(ji)算产(chan)品负责人Stephen Feng
清程极智成立(li)于2023年,聚(ju)焦AI Infra赛(sai)道(dao),团队孵化(hua)于清华大学(xue)计算机系(xi),在(zai)智能算力(li)优(you)化(hua)方面,已(yi)经(jing)(jing)积累了(le)十几(ji)年的经(jing)(jing)验。
清程(cheng)极智联(lian)合创始人师天麾分享道(dao),国产(chan)高性能(neng)算力(li)系统(tong)正(zheng)面临着故障恢复难、性能(neng)亚健康等方面的挑战,需要10大(da)核心基础(chu)软件系统(tong)配合,清程(cheng)极智已在(zai)其中过半数领域拥(yong)有自(zi)研产(chan)品。
目前,清程极智已掌握了从底(di)层编译器(qi)到(dao)上层并行(xing)计(ji)算系统的(de)全(quan)栈技术积(ji)累,实现大(da)模(mo)型(xing)(xing)(xing)行(xing)业生态(tai)的(de)全(quan)栈式(shi)覆盖,完成(cheng)多个在国(guo)(guo)产芯片的(de)高(gao)吞吐(tu)量推理(li)优化和主流大(da)模(mo)型(xing)(xing)(xing)的(de)快速移植和优化,计(ji)算效果提升明显。其中,面向超(chao)大(da)规(gui)模(mo)国(guo)(guo)产算力集群研制的(de)大(da)模(mo)型(xing)(xing)(xing)训(xun)练(lian)系统“八(ba)卦炉”,可扩展到(dao)全(quan)机10万台(tai)服务器(qi)规(gui)模(mo),用于训(xun)练(lian)174万亿(yi)参数量的(de)模(mo)型(xing)(xing)(xing)。
▲清程极智联合创始(shi)人师(shi)天麾
芯(xin)和半导体技术市场总监黄晓波谈道,算(suan)力(li)(li)需求(qiu)过(guo)去20年(nian)增长6万(wan)倍,未(wei)来10年(nian)可能达10万(wan)倍,存储、互联带宽成(cheng)(cheng)为主(zhu)要发(fa)展瓶颈。Chiplet集成(cheng)(cheng)系统成(cheng)(cheng)为后摩尔时代先进工艺制(zhi)程限制(zhi)和高性(xing)能算(suan)力(li)(li)提升突(tu)破的重要方向,已(yi)经广泛(fan)应用于AI大(da)算(suan)力(li)(li)芯(xin)片(pian)和AI算(suan)力(li)(li)集群网(wang)络交换芯(xin)片(pian)。
对此,芯和半导体为Chiplet集成系统的(de)设计开发提(ti)供了一站式(shi)多(duo)物理场仿真(zhen)EDA平台(tai)(tai)。该(gai)平台(tai)(tai)支持主流(liu)工艺设计互连结构参数(shu)化建模(mo),求解(jie)仿真(zhen)能力比其他平台(tai)(tai)快10倍,内(nei)存仅占1/20,并内(nei)置HBM/UCIe协议(yi)分析以提(ti)升仿真(zhen)效(xiao)率,获国内(nei)外(wai)多(duo)家头部AI算力芯片设计厂商(shang)使用,帮助大算力Chiplet集成系统产品的(de)加速落地。
▲芯和半导体技术(shu)市场总监黄晓波
在大模型训(xun)练(lian)过(guo)程中,网络(luo)基础设(she)施(shi)的(de)开销占比达(da)到30%,凸显(xian)了网络(luo)性(xing)(xing)能的(de)重(zhong)要(yao)(yao)性(xing)(xing)。据奇异摩尔联(lian)合(he)创始人、产品及解(jie)决(jue)方案副总(zong)裁祝俊(jun)东分享(xiang),网络(luo)已成为智算(suan)性(xing)(xing)能瓶颈,构(gou)建AI网络(luo)需要(yao)(yao)三网融合(he),即集群网间互连(lian)、机柜内互连(lian),芯片内的(de)互联(lian)。
大(da)智算(suan)集群需要高性(xing)能(neng)(neng)互连,Modernize RDMA与(yu)Chiplet成为关键技术。为了优化RDMA,奇(qi)异摩(mo)尔的(de)NDSA网(wang)络加(jia)速(su)芯粒系列(lie)基于可(ke)编(bian)程众核(he)流(liu)式(shi)架构(gou),通(tong)过高性(xing)能(neng)(neng)的(de)数(shu)据(ju)(ju)引(yin)擎,实现(xian)高性(xing)能(neng)(neng)数(shu)据(ju)(ju)流(liu)及(ji)灵活数(shu)据(ju)(ju)加(jia)速(su)。奇(qi)异摩(mo)尔首创的(de)GPU Link Chiplet “NDSA-G2G”,基于以太基础(chu)设(she)施 ,通(tong)过高性(xing)能(neng)(neng)数(shu)据(ju)(ju)引(yin)擎和D2D接口(kou)技术,可(ke)实现(xian)Scale-Up网(wang)络TB级高带(dai)宽,性(xing)能(neng)(neng)媲美全球互连技术的(de)标杆。
▲奇异摩(mo)尔联合创始人(ren)、产品及(ji)解决(jue)方案副总裁祝俊东
Alphawave是(shi)一家针对(dui)HPC、AI和高速网络应用提供(gong)IP、Chiplet和ASIC设计解决方案(an)的企(qi)业。其亚太地区(qu)高级(ji)业务总监郭(guo)大玮分享(xiang)说(shuo),针对(dui)数据(ju)在传输过程中面临的问题,Alphawave IP产品的误码率比竞品低2个数量(liang)级(ji),还(hai)可辅助进行(xing)集成和验证,并(bing)与Arm生态(tai)深度融(rong)合。他们(men)还(hai)能为客户的SoC提供(gong)全生命周(zhou)期的支持。
Chiplet方面(mian),Alphawave帮助客户(hu)缩短(duan)周期,降低成本,提升了良率和迭代速度(du),目(mu)前(qian)已(yi)做出行业内第一(yi)款多协议IO连(lian)接Chiplet,今年已(yi)经流(liu)(liu)片。定(ding)制芯(xin)片方面(mian),Alphawave主要专注于(yu)7nm以下(xia)的工艺,可根据客户(hu)需求完成从规格(ge)到(dao)流(liu)(liu)片的全流(liu)(liu)程,目(mu)前(qian)已(yi)实现超375次成功流(liu)(liu)片,DPPM小(xiao)于(yu)25。
▲Alphawave亚(ya)太地(di)区(qu)高级业务总监郭(guo)大玮(wei)
结语:下游智能化风起云涌,AI芯片迎历史机遇
在(zai)迈(mai)向通用人工(gong)智能终极议题的(de)(de)道(dao)路上,AI算法的(de)(de)形态(tai)不断(duan)变化,AI芯(xin)片也与之相(xiang)随。当古老的(de)(de)沙砾邂逅未来的(de)(de)机(ji)器智能,技术与工(gong)程(cheng)智慧(hui)交融(rong)碰撞,一颗颗凝集(ji)(ji)了精(jing)微设计的(de)(de)AI芯(xin)片走进计算集(ji)(ji)群,步入千(qian)家万(wan)户,托载起硅(gui)基生命的(de)(de)进化。
从智(zhi)(zhi)算中心(xin)、智(zhi)(zhi)能驾驶(shi)到AI PC、AI手机、新(xin)型AI硬(ying)件,下游智(zhi)(zhi)能化(hua)风潮为锚定(ding)不同场(chang)景(jing)的(de)AI芯片(pian)(pian)都带来了新(xin)一波历史机遇(yu)。快速发展的(de)生成式AI算法及(ji)应用不断解锁(suo)新(xin)的(de)算力挑战。技术创(chuang)新(xin)和市场(chang)需(xu)求正双(shuang)重推动AI芯片(pian)(pian)市场(chang)规模(mo)扩大,并(bing)推动AI芯片(pian)(pian)的(de)竞争格局趋(qu)于多(duo)元。
9月7日,2024全球AI芯片(pian)峰会将(jiang)继续密(mi)集(ji)输送干货(huo):主会场(chang)将(jiang)举(ju)行AI芯片(pian)架构创新(xin)专(zhuan)场(chang)、边缘/端侧AI芯片(pian)专(zhuan)场(chang),公布「2024中(zhong)(zhong)国(guo)智(zhi)算集(ji)群(qun)(qun)解决方案企业TOP 20」、「2024中(zhong)(zhong)国(guo)AI芯片(pian)新(xin)锐企业TOP 10」两大榜单;分会场(chang)将(jiang)举(ju)行智(zhi)算集(ji)群(qun)(qun)技术论(lun)坛、中(zhong)(zhong)国(guo)RISC-V计算芯片(pian)创新(xin)论(lun)坛。