芯东西(公众号:aichip001)
编辑 | GACS 2024
2024全球(qiu)AI芯片峰会(GACS 2024)于9月(yue)6日~7日在北京(jing)举行(xing),大(da)会由智(zhi)一科技旗下芯片行(xing)业媒体芯东(dong)西和硬科技知识分(fen)享(xiang)社(she)区智(zhi)猩(xing)猩(xing)发起举办。在大(da)会第一天的主会场开幕式(shi)上,AMD人工智(zhi)能事业部(bu)高级(ji)总监王宏强以《推进大(da)模型从云(yun)到端(duan)部(bu)署(shu),打造变革性(xing)未(wei)来》为题发表演讲(jiang)。
AMD在端到端的(de)(de)AI基(ji)础设(she)施领(ling)域打造了全面(mian)的(de)(de)产品线(xian),覆盖从数据中(zhong)心(xin)服务器(qi)、AI PC到智能嵌(qian)入(ru)式(shi)和边缘设(she)备,并提(ti)供领(ling)先(xian)的(de)(de)AI开源软(ruan)件(jian)及(ji)开放的(de)(de)生(sheng)态系统。AMD基(ji)于先(xian)进(jin)ZEN4架(jia)构设(she)计的(de)(de)CPU处(chu)理器(qi)平台、基(ji)于CDNA3架(jia)构面(mian)向AI推理&训练的(de)(de)MI系列加速器(qi),已被微软(ruan)等巨(ju)头采用。
据AMD人工智(zhi)能事业部高(gao)(gao)级总监王宏强分享,AMD还在推(tui)动数据中心高(gao)(gao)性(xing)能网络基础设(she)施(shi)(UALink,Ultra Ethernet),这对AI网络结构需要(yao)支(zhi)持快(kuai)速切(qie)换和极低延(yan)迟、扩展(zhan)AI数据中心性(xing)能至(zhi)关重要(yao)。AMD即将发布下一代高(gao)(gao)性(xing)能AI PC芯片(pian),其基于第二代XDNA架(jia)构的Ryzen AI NPU,可提供50TOPS算(suan)力,将能效比提高(gao)(gao)至(zhi)通用架(jia)构的35倍。
在(zai)AI PC对隐(yin)私(si)、安(an)全和(he)数据(ju)自主性的推(tui)动下(xia),重要(yao)的AI工(gong)作负载开始部署在(zai)PC上。作为全球领先(xian)的AI基础(chu)设施提供商之一,AMD愿(yuan)意携(xie)手广大客户(hu)与开发者共建变革性未来。
目前,为了推(tui)进AI从云到端部署(shu),AMD重点(dian)主要(yao)集中在(zai)提供丰富多样(yang)的高性(xing)能和自适应硬件(jian)和软件(jian)解决方案组合(he)、建设开放式生态系(xi)统、将复(fu)杂的工作负载简化为引(yin)人(ren)入(ru)胜的用户体验这(zhei)三大关键领域。

▲AMD人工智能事业部高级总监(jian)王宏强
以下为王宏强的演讲实录:
自去年以来,人工智能(AI)领域实现了显著的发展,尤其是在大模型和生成式AI方面。AMD在这些技术产品方面逐步推出了从硬件平(ping)台到软(ruan)件,从端(duan)(duan)到端(duan)(duan)的解决方案。
AMD拥有(you)(you)(you)非常(chang)全的产(chan)品线,从(cong)数据中心服(fu)务(wu)器,到边缘侧(ce)的Edge&Embedded,还有(you)(you)(you)AI PC,都有(you)(you)(you)非常(chang)全面的硬件AI平(ping)台。
AMD公司真正做到针对不同数据中心业务需求进行优化,以满足各种工作负载。这包括使用CPU处理器进行轻量级AI推(tui)理,或者利用(yong)MI加速器处理(li)大(da)规模任务,尤其是当前生成式AI大模型的(de)推理和(he)训练。
同时,我们知道在数据中心,除了推理和训练,特别是在训练里面,我们需要有Scaling Out(横向扩展)和Scaling Up(纵向扩展)。在同(tong)一(yi)个节点里面(mian)有(you)多卡互联,在不同(tong)节点之(zhi)间则是(shi)需要有(you)Scaling Out扩大整(zheng)个处理(li)的能力。
针对这方面,我们集中(zhong)发展(zhan)开放(fang)的(de)高(gao)速互联,如UALink和Ultra Ethernet,我们在计算和跨节点互联方面都提供了重要的技术支持。AI网络有一个很重要的需求,就是需要一个极低的延时和响(xiang)应的时间,AMD找的(de)(de)是开放的(de)(de)UALink和Ultra Ethemet,更(geng)好地(di)与业(ye)界其他客户(hu)一起(qi)构建我们整个(ge)的(de)(de)计算加速平台。
一、加速器轻松处理上万亿参数模型
AMD的EPYC系列新一代(dai)CPU拥有(you)多达(da)192个核心(xin)和384个线程,这是基于我们最新的ZEN5架构(gou)设计的,它相比上一代也有非常大的性能提升,不(bu)仅(jin)是从Instruction Bandwidth(指(zhi)令带(dai)(dai)宽(kuan)),还有(you)(you)数(shu)据的Bandwidch(带(dai)(dai)宽(kuan)),比如L2到(dao)(dao)L1的,还有(you)(you)L1到(dao)(dao)浮点数(shu)据的带(dai)(dai)宽(kuan)都有(you)(you)提升2倍。
同时,我们的(de)(de)AVX-512技术(shu)是完(wan)整的(de)(de),它在数据的(de)(de)buffer(缓冲(chong)区)也有(you)带宽,从而能(neng)够更有(you)效地(di)支持AI推理(li)服务(wu)。
自(zi)去年12月以(yi)来,我们在数据中心(xin)也推出(chu)了一系列新(xin)的MI加速器(qi),这(zhei)些产品已经(jing)被包括微软在内的大型互联网公(gong)司采(cai)用。
我们加速的板卡已经被(bei)服务(wu)器制造(zao)商(shang),包括OEM(原始(shi)设备制造(zao)商(shang))和(he)ODM(原始(shi)设计制造(zao)商(shang))集成到他们的服务(wu)器中(zhong)。
对(dui)于用(yong)户(hu)而言,只(zhi)要(yao)购(gou)买了(le)这些服务器,就可(ke)以获(huo)得(de)内置(zhi)我(wo)们的(de)CPU和MI加速器的(de)系(xi)统,并用(yong)于执行AI推理和训练任务。
目(mu)前,在(zai)大模型生成式(shi)AI领域(yu),ADM也是一直在(zai)提升我们的(de)架(jia)构。我们原(yuan)来是Llama3的(de)架(jia)构,对此我们也将继续演(yan)进。
在存储容量和存储带宽方面,我们也取得了(le)快速的发展。预计到今年(nian)年(nian)底,大家将会看到一些(xie)相(xiang)关(guan)的更新产品的发布。
我们将更有效地支持(chi)当前在大模(mo)型(xing)的推(tui)理(li),例(li)如Llama和GPT等。让所有的这些模型都能轻松地在我们的加速器上运行。更为重要的是,我们(men)的加速器甚至能够处理具(ju)有上万亿参(can)数的模型。
二、GPU设计完全开源,人人都可对代码进行修改
在GPU软件设计上,我们有ROCm,它是一个开源的加速器软件。我们不仅设计是开源的,而且整个架构也是模块化的,对用户完全开放、开源。
用(yong)户和社区(qu)成(cheng)员都可以访问(wen)这些开源代(dai)码,你甚至可以对代(dai)码进行修改。我们鼓(gu)励(li)更多地去把AI整个(ge)社区(qu)的贡献集成(cheng)在我们整个(ge)ROCm平(ping)台里面。
我们针对当(dang)下最热的(de)(de)(de)生成式AI也做了很(hen)多创新,比如像对RADEON这个(ge)开源(yuan)推理引(yin)擎的(de)(de)(de)支持。此外,我们还(hai)积极支持了像SGlang这样的(de)(de)(de)新型开源(yuan)推理引(yin)擎。
SGlang和RADEON之间存在(zai)(zai)一些差异,特别是在(zai)(zai)调(diao)度(du)上。与CUDA这个(ge)(ge)相(xiang)对(dui)闭源的环境不(bu)同,我们支持(chi)不(bu)同的开源推理引擎,使用户、社区(qu),整个(ge)(ge)生态处(chu)在(zai)(zai)一个(ge)(ge)环境里(li)面。
为了支持生成式AI的大模型,我们对FlashAttention-2和FlashAttention-3进(jin)行了优化,包括对FP8这(zhei)些算子的支持。这些都是用在推理里面非常典型的数据类型,在训练里面,我们也(ye)能够支(zhi)持(chi)BF16的数据类型。
除了提供算子支持,我们还支持通信,包括RCCL优化和虚拟化技(ji)术(shu)的支持等。
三、AI发展不仅在于硬件,软件和基础设施投入同样重要
我们(men)坚持在AI的(de)(de)软件及基础设施上的(de)(de)投(tou)入。除了加大(da)自己内部(bu)的(de)(de)投(tou)入,我们(men)还会收购(gou)一些业(ye)界比较有名(ming)的(de)(de)公(gong)司。
最近(jin)我们收购了SILO.ai,这是一家(jia)拥有众多杰出(chu)AI案例的(de)公司。
通(tong)过(guo)收(shou)购SILO.ai,我们(men)不仅能够进一步提(ti)供(gong)AI优化技术,还(hai)获(huo)得了他们(men)在AI开源(yuan)领域积累的丰富专(zhuan)业知(zhi)识(shi)。
我们(men)也收购了ZT Systems。作为行业领先的数据中(zhong)心,ZT Systems专注于AI基础设施。
我们不仅从软件、硬件平台,还从整(zheng)个(ge)机框、机架这一整(zheng)套(tao)来提(ti)供AI加速(su)的能(neng)力。
开源加速的发展(zhan)速度在不断加快,每天都有新的开源算(suan)子(zi)和框(kuang)架被(bei)推出。
AMD本着开源(yuan)开放的(de)战(zhan)略,积极在开源(yuan)社区进行(xing)部署和推广(guang)新模型(xing)。我们(men)借助整个(ge)生态系统(tong)的(de)力量,迅速推动(dong)AI技术的(de)发展(zhan),这与(yu)相对封(feng)闭的(de)CUDA环(huan)境(jing)完全不一(yi)样。
我们(men)与HuggingFace的(de)合作也(ye)是(shi)非常(chang)紧密的(de)。HuggingFace上(shang)有70多万(wan)个模型,每天(tian)我们(men)都会进行一些测试,保证它的(de)这些模型都是(shi)可(ke)以直接运行在我们(men)加速器(qi)的(de)平台(tai)上(shang),包括在数(shu)据中心里面,还(hai)有在个人笔记本Ryzen平台(tai)上(shang)。
我(wo)(wo)们(men)(men)还与OpenAI Triton合(he)作,它提(ti)供了(le)更高(gao)层次的AI语言(yan)抽(chou)象(xiang),使我(wo)(wo)们(men)(men)能够在更高(gao)层次的语言(yan)抽(chou)象(xiang)上更容(rong)易地实现功能。此外,我(wo)(wo)们(men)(men)很早就开始支(zhi)持像PyTorch这(zhei)样的推理(li)框架。
四、XDNA2架构下的NPU,算力与存储提升
刚(gang)刚(gang)介绍了(le)我们(men)在数据中心的投入,实际(ji)上我们(men)在AI PC的投入也非常大。
我们一直在RyzenAI平台引领(ling)AI PC。
现在越(yue)来越(yue)多的应(ying)用可以跑(pao)在个人笔记(ji)本电脑(nao)里面(mian),比如(ru)一些(xie)实时的协同都可以在个人电脑(nao)里面(mian)跑(pao)一些(xie)大(da)模型,通过这些(xie)大(da)模型作(zuo)为基座,去开(kai)发各(ge)种(zhong)应(ying)用,这就使得各(ge)种(zhong)应(ying)用真的可以落地到端侧。
我们AMD要(yao)发布的(de)下一代(dai)高性能(neng)AI PC芯片,它也是(shi)基于(yu)我们Zen5 CPU的(de)架构,加上(shang)了第2代(dai)XDNA,Ryzen是(shi)升级到3.5的(de)版本,能(neng)够提供50TOPS的(de)算力(li)。
在AI PC领(ling)域,用(yong)(yong)户越(yue)来越(yue)重(zhong)视隐私保护(hu)、数据安全和数据自主性(xing)。随(sui)着重(zhong)要的(de)AI工作流程逐步在个人电(dian)脑端部署,对(dui)专用(yong)(yong)处(chu)理器(qi)的(de)需(xu)求也随(sui)之增加。
在(zai)PC部署上(shang),大家对(dui)PC机的(de)耗电(dian)需求(qiu)非(fei)(fei)常大,因此非(fei)(fei)常需要NPU的(de)处理器。NPU在(zai)性能功耗比具有非(fei)(fei)常大的(de)优势,相比通用(yong)的(de)处理器,它能够(gou)扩(kuo)大35倍以上(shang)的(de)能效,所以我(wo)们在(zai)AI PC里面有集成这个NPU。
NPU是(shi)基(ji)于我们XDNA2最新的(de)架(jia)构,它的(de)底层是(shi)AI处(chu)理(li)引擎,相比之前,从算力,包括存(cun)储都(dou)有一点几倍的(de)提升(sheng)。
我们在数据类型上也进行了很多创新,例如(ru)对(dui)Block FP16的(de)支持。与(yu)第一代XDNA相比,我(wo)们实现了更(geng)高的(de)能(neng)效比,计算能(neng)力提(ti)升了5倍,功耗效率也提(ti)高了2倍。
关于关键数据类型的创新,就是块状浮点的支持。块状浮点(dian)的优(you)势在于它结(jie)合了8-bit数据类(lei)型的高(gao)性(xing)能和16-bit精度(du)的优(you)点(dian),从而(er)在数据位宽、精度(du)以及(ji)存储需求之间实现了理(li)想的平(ping)衡。它在(zai)性能上与8-bit相近(jin),同时在(zai)模型大小上仅(jin)需(xu)9-bit表征。此外,它在(zai)精(jing)度上非常接近(jin)16-bit,能够达到与16-bit数(shu)据类型几乎相同的99.9%的准确(que)度。
另外一个(ge)在AI PC上的应(ying)用(yong)就(jiu)是RAG推(tui)荐系统(tong)。它包括前处理步(bu)骤,其中一些处理在CPU上执行(xing),而核心计算则在NPU,这(zhei)种设计使得整个(ge)系统(tong)能够实时处理RAG推(tui)荐系统(tong)的任务。
刚(gang)(gang)刚(gang)(gang)介绍的(de)(de)这些功(gong)能都是通(tong)(tong)(tong)过AMD的(de)(de)Ryzen软件(jian)达到的(de)(de),RyzenAI的(de)(de)软件(jian)架构包括从浮(fu)点模型开(kai)始,通(tong)(tong)(tong)过内置的(de)(de)量化(hua)器进行(xing)优化(hua),最后通(tong)(tong)(tong)过ONNX的(de)(de)表示执行(xing)到NPU里面(mian)。
我们也支持通用架构,并正在开发Unified AI software stack(软件栈)。这一软件栈能够智能地(di)识别系统中的CPU、NPU和iGPU这三种加速引擎(qing),并(bing)自动分配(pei)最适合的引擎(qing)来处理相应的工作(zuo)流(liu)程,从而实现最(zui)优性能。
我将很(hen)快分享一下AMD基于Edge&Embedded,在嵌入式和边缘(yuan)的应(ying)用。
在AMD,这个平(ping)台(tai)是真正的一(yi)个异构(gou)计(ji)算(suan)平(ping)台(tai),它不仅包括(kuo)可编(bian)程逻辑,也包括(kuo)XDNA和ARM CPU。它能够处理(li)AI中的关键模块(kuai),包括(kuo)前处理(li),如LiDAR数据处理(li),这些(xie)都可以由(you)可编(bian)程模块(kuai)来执行。
AI的Inference可以(yi)(yi)在XDNA架构中进行,而一些后处理(li)(li)、决策(ce)和(he)Dedision Making则(ze)可以(yi)(yi)在后处理(li)(li)器(qi),如CPU里(li)面去进行。
我(wo)介绍一个Demo,它是(shi)基于AI的(de)(de)立体摄(she)像头实现(xian)的(de)(de),没有用雷达(da),也没有用地图,可以看(kan)到只是(shi)用了立体摄(she)像头做AI相应的(de)(de)处理,就能(neng)实现(xian)自动驾驶的(de)(de)功能(neng)。
最后我总结一下我们的优势,我们能够定义新的AI时代端到端的基础设施,我们整个产品的线路是最全的,从数据中心(xin)、从边缘,到端侧(ce),都有一整套的(de)硬件。
我(wo)们在AI软(ruan)件上(shang)(shang)一直有(you)非常大(da)的(de)(de)投入(ru),包括对软(ruan)件的(de)(de)支(zhi)持(chi),我(wo)们一直走的(de)(de)是开源开放的(de)(de)生态,让所有(you)的(de)(de)AI开发(fa)(fa)者(zhe)、客户(hu)、用户(hu),包括整(zheng)个社区,大(da)家都可(ke)以在我(wo)们开放的(de)(de)软(ruan)件平(ping)台上(shang)(shang)贡献,去推进整(zheng)个AI软(ruan)件的(de)(de)快速发(fa)(fa)展,去支(zhi)持(chi)在不同平(ping)台上(shang)(shang)的(de)(de)各种新的(de)(de)模型(xing)。
我们(men)正处在一个AI推动的(de)(de)(de)社会变革中,AI的(de)(de)(de)影响已(yi)经(jing)深(shen)入(ru)到我们(men)的(de)(de)(de)日常生(sheng)活之(zhi)中。AMD会继续推进大模型,从云边(bian)端的(de)(de)(de)部署,以真正帮助到用(yong)户,基于AI技术去打造一个更加方便、更加便捷的(de)(de)(de)生(sheng)活。