芯东西(公众号:aichip001)
编辑 | GACS 2024
2024全球AI芯(xin)片峰(feng)会(hui)(GACS 2024)于(yu)9月6-7日(ri)在北(bei)京(jing)举行(xing),大(da)会(hui)由智一科技(ji)旗下芯(xin)片行(xing)业媒体芯(xin)东西和硬科技(ji)知识分享社区智猩猩发(fa)起举办(ban)。在7号下午举行(xing)的(de)边(bian)缘/端侧AI芯(xin)片专场,后(hou)摩智能联合创始人、产品副总裁信晓旭以《存算(suan)一体,解锁AI大(da)模型的(de)边(bian)端侧潜力(li)》为题(ti)发(fa)表演讲。
在演(yan)讲中,信晓旭首先分(fen)析了(le)AI技术(shu)(shu)发(fa)展(zhan)的(de)(de)(de)两大趋势:模型参数的(de)(de)(de)不断扩展(zhan)和小模型的(de)(de)(de)兴(xing)起。后者在端侧(ce)(ce)和边缘侧(ce)(ce)展(zhan)现出(chu)巨(ju)大潜(qian)力。因为(wei)端侧(ce)(ce)和边缘侧(ce)(ce)的(de)(de)(de)应(ying)用更接近实际(ji)场(chang)景,能够(gou)利(li)用丰富的(de)(de)(de)数据资源,为(wei)AI技术(shu)(shu)提供(gong)发(fa)展(zhan)土壤。由此,信晓旭强调了(le)端侧(ce)(ce)和边缘侧(ce)(ce)在AI创新中的(de)(de)(de)潜(qian)力。
信晓(xiao)旭还梳理了AI芯片发(fa)展的两个阶段,提到内存(cun)(cun)访问(wen)效率已成为新的瓶颈。在(zai)业界正在(zai)探索的几种技(ji)(ji)术路径中,存(cun)(cun)算(suan)(suan)一体技(ji)(ji)术通过将(jiang)存(cun)(cun)储和(he)计(ji)算(suan)(suan)功能集成在(zai)同一芯片上,实现了低成本、低功耗(hao)和(he)低延迟(chi)的优势,与端侧AI芯片的需求高度契(qi)合。
最后(hou),信(xin)晓旭(xu)介(jie)绍了(le)这两(liang)年(nian)后(hou)摩智能(neng)陆续推出的(de)两(liang)种(zhong)芯(xin)片(pian),它们都展现(xian)(xian)了(le)超过(guo)同行2倍的(de)能(neng)效优(you)势,还特(te)别(bie)实现(xian)(xian)了(le)对边缘计算场景的(de)定制化(hua)优(you)化(hua)。此(ci)外,据信(xin)晓旭(xu)透露,基于(yu)新(xin)架构的(de)M50芯(xin)片(pian)正在(zai)研发,在(zai)新(xin)架构中,AI核心的(de)性(xing)能(neng)将总体(ti)提升20%。

▲后摩智能(neng)联合创始(shi)人、产品副总裁信(xin)晓旭
以下为信晓旭的演讲实(shi)录:
一、相比参数不断增长的大模型,端侧小模型的发展将更有生命力
任何一次里程(cheng)技术的创新,都(dou)是0到(dao)1的质变,1后(hou)面(mian)添加多(duo)(duo)少个0要看底层的技术,赋能多(duo)(duo)少应用(yong),解决多(duo)(duo)少问题。所以谈到(dao)这样一次技术革命,最终爆发了多(duo)(duo)大(da)(da)能量有多(duo)(duo)大(da)(da)影响力,将完全(quan)取(qu)决于最后(hou)创新。
IT行业发展历程中最有影(ying)响力的(de)技(ji)术(shu)革(ge)命分别(bie)有两(liang)次,一次是(shi)计算机(ji)技(ji)术(shu)的(de)革(ge)命,一次是(shi)通信技(ji)术(shu)的(de)革(ge)命。
先说计算机技(ji)术的(de)革命,计算机出来(lai)的(de)时(shi)候是计算导弹的(de)飞(fei)行轨迹(ji),如果没(mei)有用(yong)到个人电脑(nao)上,没(mei)有更多(duo)的(de)应用(yong),像播放器等(deng)等(deng),它还是实验室的(de)实验工具。通信(xin)技(ji)术最开(kai)始做的(de)最高效的(de)通信(xin),无时(shi)无刻(ke)不在(zai)的(de)通信(xin)。大家可(ke)以看到现(xian)在(zai)整个移动互联(lian)网以及(ji)APP应用(yong)完全离(li)不开(kai)了(le)。
任何一次的(de)技术革命都会经历几(ji)个不同的(de)阶(jie)段:前期技术非(fei)常(chang)非(fei)常(chang)炫酷(ku),然后找(zhao)到(dao)(dao)应(ying)(ying)(ying)用(yong)、应(ying)(ying)(ying)用(yong)场景去解决一些问题,最(zui)后实现(xian)商业闭环这(zhei)样(yang)一个过程。大(da)模型发展的(de)当下,最(zui)最(zui)重要(yao)的(de)事情就(jiu)是(shi)找(zhao)到(dao)(dao)应(ying)(ying)(ying)用(yong)、对应(ying)(ying)(ying)的(de)应(ying)(ying)(ying)用(yong)场景。那么,下一个杀手(shou)级应(ying)(ying)(ying)用(yong)到(dao)(dao)底是(shi)什么?
再说到AI的技术发展,从AlphaGO到ChatGPT,这个过程中一直是沿着两个路径走。一个是越做越大的模型参数,实际上是探索了当前这个技术路线的边界。技术发展到现在,我们很欣喜的发现了另外一条路径——一些小模型的出现。大家开(kai)始尝试把(ba)AI能力用(yong)在更多(duo)的(de)场景中(zhong),以更简单(dan)的(de)方式、更少的(de)成本部(bu)署到各个(ge)终端(duan)里。
这种(zhong)模型正在(zai)陆(lu)(lu)陆(lu)(lu)续(xu)续(xu)推出,它们也展示了(le)非(fei)常好的能力。像(xiang)Llama,是(shi)在(zai)端侧(ce)(ce)和(he)边缘(yuan)侧(ce)(ce)对于应用创新中的一大步。这些端侧(ce)(ce)和(he)边缘(yuan)侧(ce)(ce)的应用不仅(jin)更接近实际场景,而(er)且能够利用丰富的数据资源,为AI技(ji)术的发展提供(gong)肥沃的土壤。
从过往的历史可以看出,大部分技术革命都产生在端侧,比如移动互联网时代的手机等等。AI发展到现在,端侧展现出更多的生命力。应用创新还会继续发生在端侧和边缘侧。
二、存算一体技术与端侧AI芯片的需求高度契合
AI芯片的(de)发展经历了两个阶段。
第一阶段缺乏专门处理矩阵和张量计算的处理器,AI芯片面临着计算效率低下的挑战。为了解决这一问题,业界(jie)推出了如英伟达的Tensor Core和华为昇腾的CUBE等技术,显(xian)著提升了计算(suan)能力。
然而,随着计算能力的提升,内存访问效率成为了新的瓶颈,尤其是在处理大模型时,内存访问的需求更为迫切。这(zhei)(zhei)(zhei)种现(xian)象被称为(wei)“Memory Wall”(存储(chu)墙),它已(yi)成为(wei)当前AI芯片设计中(zhong)亟待解决(jue)的关键问题。我参加(jia)过两次峰(feng)(feng)会,第一(yi)次参加(jia)峰(feng)(feng)会的时(shi)候,我好像(xiang)是所有(you)参会嘉(jia)宾中(zhong)唯一(yi)一(yi)个(ge)(ge)讲存算(suan)一(yi)体的。而这(zhei)(zhei)(zhei)次峰(feng)(feng)会上(shang)有(you)很多人都(dou)提(ti)到(dao)了这(zhei)(zhei)(zhei)个(ge)(ge)事情(qing),说明大家都(dou)关注到(dao)了这(zhei)(zhei)(zhei)样(yang)一(yi)个(ge)(ge)痛点,我们当下就(jiu)需(xu)要解决(jue)这(zhei)(zhei)(zhei)样(yang)一(yi)个(ge)(ge)问题。
其实解决这个“Memory Wall”的问题,大家都在尝试不同的路径。有两个技术路线。其中一种方法是通过封装技术将计算单元与存储单元更紧密地集成,如HBM技术的成功应用。然而,尽管这种技术在云端应用中表现出色,但其高昂的成本使得端侧应用难以承受。边端侧的AI芯片相对于云端来说有它特殊的需求,对功耗、对成本更敏感。我们其实需(xu)要摸索出(chu)一个更符(fu)合它需(xu)求的路径。
存算一体其实是很多厂家都在尝试走的技术路线。存算一体体现出来三个优势,低成本、低功耗、低延迟。这些特点非常符合边端侧(ce)AI低功耗、低成本的需求。
三、后摩智能存算一体芯片能效比优势显著,特别针对边缘计算场景优化
在(zai)(zai)创业之初(chu),存算一体不是(shi)太多(duo)人知(zhi)道,只有(you)学术界(jie)(jie)知(zhi)道。现(xian)在(zai)(zai),存算一体开(kai)始在(zai)(zai)产业界(jie)(jie)落地。能(neng)走到(dao)这(zhei)一步还(hai)是(shi)很欣慰,越来越多(duo)志同道合的朋友开(kai)始在(zai)(zai)这(zhei)个领(ling)域里深(shen)耕。
我们公司做(zuo)存算一(yi)体(ti)相对比较早。在过去四(si)年中,我们一(yi)直在探(tan)索存算一(yi)体(ti)技术在端侧AI、边缘测(ce)AI的技术路(lu)径和产品(pin)化。
我们陆续推出了两款芯片。2023年(nian)推出(chu)了第一款(kuan)后摩鸿途®️H30的芯片(pian),整体(ti)算力超(chao)过(guo)了我们(men)原本(ben)的预(yu)期。今年(nian)推出(chu)了第二款(kuan)芯片(pian)——后摩漫界(jie)™️M30,算力达到了100TOPS,功耗12W左右(you)。
我们的H30和M30芯片在能效比方面表现出色。它们每瓦特的计算效率基本上达到了7-8TOPS,我们的友商在3TOPS左右。这是超过2倍的能效优势。这样一(yi)个数(shu)据,更坚定(ding)了我们的(de)(de)信(xin)心(xin):我们用存算一(yi)体的(de)(de)架构,在(zai)可(ke)以(yi)拥有更好(hao)的(de)(de)产品的(de)(de)同时(shi),还可(ke)以(yi)实实在(zai)在(zai)解(jie)决计算效率的(de)(de)问(wen)题。
我们的芯片针对边缘计算场景进行了优化。这些优化措(cuo)施包括采用量(liang)(liang)化技术来(lai)降(jiang)低模型(xing)(xing)的(de)计算和存储需求,这对于成本敏感的(de)边缘(yuan)设备市场(chang)至关重(zhong)要。量(liang)(liang)化技术通(tong)过减少(shao)模型(xing)(xing)参数的(de)精度,从而减少(shao)模型(xing)(xing)大小和计算量(liang)(liang),使得大模型(xing)(xing)可(ke)以在不(bu)影响性能的(de)前提下(xia)部署到边端(duan)设备中。
我(wo)们把行业非常主(zhu)流(liu)的(de)大模(mo)型部署在(zai)了存算一体的(de)芯片上,都可(ke)以(yi)顺利运行,结合上下(xia)文、硬件以(yi)及其他配(pei)置等因素,整体运行性能在(zai)15Tokens到20Tokens之(zhi)间(jian)。
除了芯片(pian)之外,我(wo)们还提供(gong)了多种产品形态(tai)以(yi)满足不同(tong)场景的(de)需求,包括标准的(de)PCIe加速卡(ka)、M.2计(ji)算(suan)模组(zu)以(yi)及Som计(ji)算(suan)模组(zu)。
结语:下一代M50芯片正在研发,AI核心的性能将总体提升20%
我们的H30和M30芯片是基于第一代天枢架构设计的。而现在,新一代的天璇架构已经完成,它在天枢架构的基础上进行了改进和优化。在新的天璇架构中,AI核心的性能总体而言提升了20%。
基于(yu)天(tian)璇架构(gou)会推出M50的芯(xin)片,现在在开(kai)(kai)发阶段,下(xia)一(yi)次(ci)演讲可能就是揭开(kai)(kai)面纱的时(shi)候。