智东西(公众号:zhidxcom)
作者 | GenAICon 2024
2024中国生成式(shi)AI大会于4月18-19日在(zai)北京举行(xing),在(zai)大会第一(yi)天的(de)主(zhu)会场大模型(xing)专(zhuan)场上(shang),安谋科技产品总监杨(yang)磊以《大模型(xing)端侧部(bu)署(shu)提(ti)速(su),NPU赋能(neng)终端算(suan)力革新》为(wei)题(ti)发(fa)表演(yan)讲。
从GPT-3.5到GPT-4.0,从多模态交互到插件支持,从闭源到开源,AI任务处理正加速从云侧向端侧迁移,NPU及其生态迎来全新的发展阶段。安谋科技产品总监杨磊谈道,生成式AI正逐步成为客户端设备上的人机交互界面,而具备100亿参数级别的大模型已成为现有终端设备的最佳匹配规格。
然而,在终端部署这类AI大模型时,仍面临成本、功耗及软件生态等多重挑战。在当前大模型发展的硬件驱动方面,杨磊认为异构计算才是本地部署端侧大模型的理想选择,它能最大限度地提升SoC的性能、能效以及面积利用率。其中,NPU作为端侧AI应用的关键算力资源,将为大模型的分布式落地演进提供核心动力。
当前,随着大模型持续向边缘侧和端侧渗透,AI计算和推理工作逐步由云端迁移至手机、PC、智能汽车等终端产品上运行。在这一过程中,NPU能够以其更简单的控制流、更高的效率以及更低的功耗,处理AI工作负载。安谋科技自研“周易”NPU面向大模型场景做了架构、内存墙等多方面改进,正在研发的下一代“周易”NPU将采用多核设计,能够同时支持卷积神经网络(CNN)和Transformer架构,将会适配国内外多个主流大模型。
一、生成式AI革新人机交互界面,端侧大模型应用有望迎来爆发
近(jin)年来,大(da)模型不仅在(zai)对话式(shi)文本(ben)方面取得巨大(da)成功,也在(zai)图像处理(li)、音视(shi)频生(sheng)成等(deng)多模态领域展现出强大(da)的(de)潜(qian)能。随着生(sheng)成式(shi)AI在(zai)人们日常工作及生(sheng)活中被广(guang)泛应用(yong),数(shu)据(ju)处理(li)和存储(chu)需求急剧(ju)增加,使得智能计算(suan)体系结(jie)构(gou)发生(sheng)根本(ben)性转变。
大(da)模(mo)型(xing)对人机(ji)交(jiao)互(hu)(hu)界面(mian)产生(sheng)(sheng)了深刻的(de)影响,生(sheng)(sheng)成式(shi)(shi)AI已成为(wei)人与终端设备的(de)最新(xin)交(jiao)互(hu)(hu)界面(mian)。在生(sheng)(sheng)成式(shi)(shi)AI加持下,从写作(zuo)、编程、绘(hui)画到视频(pin)创作(zuo),多种模(mo)态的(de)内容(rong)创作(zuo)门槛(jian)正被前所未有(you)地降低,人机(ji)交(jiao)互(hu)(hu)的(de)流程也(ye)被大(da)大(da)简化。
在杨磊看来,端侧设备的核心交互问题关乎入口,这是争夺用户时间、持续时长、资金投入的关键所在,也是业内竞争的焦点。以典型的(de)端侧设(she)备(bei)——手机(ji)(ji)为例,在本地(di)设(she)备(bei)上(shang)运行大模型已是兵家必争之(zhi)地(di),各家手机(ji)(ji)大厂都在想方设(she)法占据(ju)这(zhei)一入口(kou)。
在此过程中,一方面,多模态模型正成为大势所趋;另一方面,针对不同的应用场景、设备或成本考量,众多厂商都推出了不同参数规模的模型。以(yi)智能(neng)手机(ji)(ji)为例,旗(qi)舰(jian)手机(ji)(ji)芯片(pian)算(suan)力(li)可达40~50TOPS,中(zhong)档手机(ji)(ji)的算(suan)力(li)在10~20TOPS的范围内,而入门(men)(men)级手机(ji)(ji)目前尚未专(zhuan)门(men)(men)配(pei)备AI能(neng)力(li),更多(duo)地依赖于CPU的通(tong)用计算(suan)能(neng)力(li)。

据杨磊预测,随着半导体技术的持续演进,旗舰手机的算力水平有望达到100TOPS,入门级手机也将从当前的无算力水平提升至5~10TOPS范围。预计两(liang)年后,不(bu)论是高价位段的手机,还是性价比优良的千元机,都有望具备本地部署AI大模型的硬(ying)件计算能力。
此外,在杨磊看来,除智能手机和PC等终端设备外,如今智能化水平不断提速的新能源汽车以及目前炙手可热的人形机器人也是大模型落地的硬件载体之一。在大会现场,杨(yang)磊(lei)列(lie)举(ju)了一些(xie)数字:目前智(zhi)能汽(qi)车(che)的(de)算力已经能达到500TOPS左(zuo)右,一些(xie)机(ji)器人方案(an)也在按照这(zhei)一算力规模进行(xing)相(xiang)应的(de)技术(shu)规划。
尽管AI大模型的应用日趋普及,比如手机上安装了Kimi、豆包、文心一言等诸多应用,但这些应用尚未达到杀手级应用的水平,实际上很多端侧硬件的计算能力已经领先于相关应用的发展。很多用户更多是出于猎奇心理来试用这类应用,并没有产生持续、频繁且高度黏性的使用需求。
“我们目前仍处于硬件先行、应用后发的阶段。安谋(mou)科技(ji)则希望结合自(zi)身(shen)独特的技(ji)术优势,打造(zao)软硬一(yi)体且极(ji)具(ju)竞争力的解决(jue)方案,推(tui)动(dong)AI大模型在端侧设备(bei)加(jia)速落地。”杨磊谈道。
二、端侧大模型部署面临三重考验,异构计算将是最优解
目前,AI PC、AI手机、“大模型上车”等细分领域已成为终端设备厂商以及半导体行业争相入局的热门赛道,那多大参数规模的大模型适合在端侧部署呢?杨磊将端侧大模型的主流参数范围总结在3亿到100亿,许多业(ye)内厂商也都在关(guan)注百亿参数这一规格。
兵马未动,粮草先行。尽管大模型应用还未全面爆发,但端侧大模型高效落地必然需要一个可靠的硬件载体,其应用需求涵盖了多个方面,比如大语言模型用于交互、多模态模型用于识别和理解、对实时计算的响应需求等,使得(de)算法能轻松部署在(zai)不同硬件平(ping)台上,并确保在(zai)端侧的(de)运行速度足够(gou)快(kuai),而不是仅仅能在(zai)云端运行。
在(zai)杨磊看来(lai),目前(qian)端侧大模(mo)型部署(shu)面(mian)临(lin)着三(san)重难关:

首先是成本。端侧设备由于使用范围广且(qie)频次更(geng)高(gao),因(yin)(yin)而(er)对(dui)于成本也更(geng)加敏感。不能(neng)单纯为(wei)了增加AI能(neng)力而(er)导(dao)致手机或PC的(de)售价上涨太多,由此(ci)带来的(de)现实要求(qiu)则对(dui)芯片面积、存储带宽、能(neng)效和计算资源这类与成本强(qiang)相(xiang)关的(de)因(yin)(yin)素多加考(kao)量和平衡。
其次是功耗。无论是PC、平板电脑(nao)、手机还是智能眼镜,其大部分的(de)使用模式都(dou)由(you)电池(chi)供(gong)电,功耗和电池(chi)容量决(jue)定了设备(bei)的(de)续航时长。一张高性能的(de)GPU动(dong)辄功耗数百瓦,更适合在云端使用,而非手持(chi)设备(bei)。相比(bi)之下,一般手机的(de)功耗则不超过10瓦,这就(jiu)要(yao)求芯(xin)片(pian)在兼具(ju)算力(li)的(de)同时,也要(yao)尽可能降低功耗,以(yi)保证设备(bei)的(de)使用时长和控制发热。
第三是软件生态。硬件平台需要支持不同(tong)(tong)的(de)应用场景,让来自不同(tong)(tong)企业的(de)不同(tong)(tong)类型算法都能被轻松部署,并(bing)且计算效(xiao)率和(he)速度(du)符(fu)合(he)预期,这就涉及到(dao)一(yi)些软件生态和(he)投入。由(you)此,选(xuan)择(ze)软件适配度(du)高、开发工具和(he)资源更为(wei)(wei)丰富的(de)技术(shu)生态也非常重要。而(er)Arm技术(shu)已成为(wei)(wei)全球应用最广泛的(de)计算平台之一(yi),具有显著(zhu)的(de)软件生态优势。
对此,杨磊认为,在硬件成本、功耗和软件生态三重难关之下,即使在端侧设备,单纯依靠传统的CPU或者GPU等通用计算单元也难以满足当前以Transformer架构为主的大模型计算要求。因此,结合各种算力单元特性的异构计算将是端侧大模型部署的最优解决方案。

三、抢占端侧部署大模型制高点,安谋科技打造高性能异构计算IP平台
异构(gou)计算其(qi)实是近年(nian)来业界比(bi)较热议(yi)的(de)话题。其(qi)核(he)心在于多种计算单(dan)元在SoC上的(de)异构(gou)组合,即在硬件(jian)方案中协同使用CPU、GPU、NPU等(deng)多种不同类型的(de)计算单(dan)元,实现(xian)更高效的(de)计算能力,以(yi)平衡成本、功(gong)耗、计算性能等(deng)。
对此,杨磊在大会现场进一步阐述异构计算为何更适合端侧大模型部署的背后原理。举例来看,要在手机上部署一个“压缩版”的ChatGPT或Llama大语言模型,其实最大的难点不在于计算量,更为棘手的是数据访问量,即内存墙。杨磊解释说(shuo),目前AI大模型除了对(dui)话式(shi)的(de)语(yu)言(yan)类应用(yong)场景(jing)以外(wai),还涵盖了文(wen)生(sheng)图(tu)、文(wen)生(sheng)视频(pin)等场景(jing),这类应用(yong)所涉及的(de)大量(liang)AI计(ji)算任务对(dui)于端侧设(she)备里原(yuan)有的(de)CPU或(huo)GPU来说(shuo)就比较吃力,更适合调(diao)用(yong)专为AI设(she)计(ji)的(de)计(ji)算单元NPU来进行计(ji)算。
对此(ci),安谋(mou)科技将全球领先的(de)Arm CPU、GPU等通用计(ji)算单(dan)元,与本土(tu)自(zi)研的(de)NPU、SPU、VPU等专用计(ji)算单(dan)元相(xiang)结合(he),打造一体化、高(gao)质(zhi)量的(de)异构计(ji)算IP平台,持(chi)续助力本土(tu)芯(xin)片(pian)创新。
其中,正如前面提到的,NPU作为面向AI计算场景应运而生的计算单元,自然也是加速端侧AI应用的关键算力资源。对此,杨磊重点介绍了安谋科技针对深度学习而自研的人工智能处理器——“周易”NPU。
目前,“周易”NPU已迭代了Z系列和X系列的多款产品,满足多样化计算需求。其中,Z系列主要面向AIoT市场,为物联网设备提供AI算力支持;X系列则主要面向车载、边缘计算等高算力应用场景,进一步提升计算效率。以安谋科技最新发布的“周易”NPU为例,该产品采用第三代“周易”架构,在算力、精度、灵活性等方面均有大幅提升,支持多核Cluster,最高可达320TOPS子系统(tong),为(wei)新兴领域不(bu)断迭代的计算需求提供更(geng)为(wei)完善的解决方案。
据杨磊补充,“周易”NPU将针对端侧大模型场景进行专门的升级优化,包括微架构改进、内存优化、并行结构升级等多(duo)个方(fang)面(mian),并透露正在研发的下一(yi)代“周易(yi)”NPU将(jiang)会适配(pei)国内外多(duo)个主流(liu)的开源大(da)模型方(fang)案,覆盖硬件(jian)及其配(pei)套(tao)的软件(jian)工具。

在微架构方(fang)(fang)面(mian),“周易”NPU架构(gou)将面(mian)向Transformer结构(gou)进行专门的(de)加速改进;在(zai)内(nei)存方(fang)(fang)面(mian),“周易”NPU也会针对存储限制做进一(yi)步优化,包括常见的(de)低比特量化技术等(deng);而在(zai)并(bing)行计(ji)(ji)算(suan)方(fang)(fang)面(mian),下(xia)一(yi)代“周易”NPU则重点(dian)考虑满足(zu)并(bing)行计(ji)(ji)算(suan)的(de)需求,能够(gou)同时支持(chi)卷积神(shen)经网(wang)络和Transformer架构(gou),更好地满足(zu)当前应用(yong)端(duan)的(de)不同场景需求。
此外,据杨磊介绍,安谋科技的下一代“周易”NPU将采用多核架构,能够根据不同场景需求来配置不同的算力,例如AI PC等高算力场景可配置多个NPU核心,而AR眼镜等更需平衡性能和功耗的场景则可以考虑配置单核,多核架构可以更好地满足算力从小到大的灵活扩展。
结语:端侧大模型爆发将至,安谋科技提供底层核心技术支撑
技术进(jin)步为大模型在(zai)云(yun)边(bian)端(duan)的部署提供了广泛的可能,大至(zhi)在(zai)成百上千(qian)张卡的大型集(ji)群上做训练(lian),小至(zhi)在(zai)手(shou)持设备(bei)上部署,大模型正通过越来越多元的硬(ying)件(jian)载体,走进(jin)千(qian)家(jia)万(wan)户和千(qian)行百业(ye)。
在(zai)云(yun)端(duan),国内外已有很多GPU和AI芯片企(qi)业在(zai)开展(zhan)相关工作。但在(zai)边缘端(duan)侧(ce),目前还没有一个成(cheng)熟(shu)、统一的硬件平(ping)台,能够支撑大模型部署到手(shou)机、PC或机器人等设(she)备上,因此(ci)市场潜力巨大。
“端侧设(she)备已成为大(da)模型(xing)部署(shu)的(de)(de)兵家必争之地”,杨(yang)磊如(ru)此(ci)形容(rong)端侧大(da)模型(xing)的(de)(de)竞争态势。综合(he)来看,抢占入口的(de)(de)不止是硬件设(she)备制造商,还有众多(duo)算法开发(fa)者,以及像安谋(mou)科(ke)技(ji)这(zhei)类(lei)专(zhuan)注(zhu)于芯片底层技(ji)术创新的(de)(de)企(qi)业,大(da)家不约而同地看到了其中蕴(yun)藏的(de)(de)市场机(ji)会。
杨磊最(zui)后谈到(dao):“AI大模型不仅(jin)仅(jin)部署(shu)到(dao)云上,未来在(zai)端(duan)侧也将迎来爆发式增长(zhang),我们非(fei)常期待(dai)与产业链上下游的伙伴们加强沟(gou)通(tong)与合(he)作,携(xie)手共赢生(sheng)成式AI未来。”