芯东西(公众号:aichip001)
编辑 |  GACS 2024

2024全球AI芯片峰会(GACS 2024)于9月6日~7日在北京举行,大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办,在主会场边缘/端侧AI芯片专场上,智芯科创始人兼CEO顾渝骢以《具身智能的大脑芯片》为题发表了演讲。

智芯(xin)(xin)科从2019年(nian)开始研究基于SRAM的(de)存算(suan)一体芯(xin)(xin)片,已有(you)大(da)量(liang)专(zhuan)利积累(lei)。智芯(xin)(xin)科创始人兼CEO顾渝骢认为,具身智能(neng)是(shi)其中最大(da)的(de)落地场景之(zhi)一,具身智能(neng)对低延(yan)时、低功耗都有(you)严苛的(de)要求,因此有(you)必(bi)要配备高能(neng)效(xiao)的(de)存算(suan)一体AI芯(xin)(xin)片。

存算一(yi)体(ti)(ti)芯片的(de)主流技(ji)术路径(jing)包括DRAM、SRAM、Flash、Emerging NVM等。其中,SRAM具有读(du)写(xie)速度快(kuai)、能效(xiao)比(bi)高(gao)、工艺(yi)成熟和可集成性(xing)佳的(de)优势(shi),可快(kuai)速无限次读(du)写(xie),很适合Transformer的(de)自注意力机制。凭借(jie)这些优势(shi),SRAM已成为海(hai)内外存算一(yi)体(ti)(ti)技(ji)术研发的(de)首选(xuan)。

智(zhi)芯(xin)科(ke)基于SRAM的模数混合存内计算芯(xin)片(pian),精度高、量产(chan)一(yi)(yi)致性(xing)高,并能够(gou)进一(yi)(yi)步降(jiang)低功耗。硬(ying)件(jian)之(zhi)外,智(zhi)芯(xin)科(ke)还打造了通用(yong)性(xing)、易用(yong)性(xing)较强(qiang)的软件(jian)生态。据顾(gu)渝骢透(tou)露,未来智(zhi)芯(xin)科(ke)将(jiang)推出面向具身智(zhi)能感知到大算力边缘(yuan)服务器的众多产(chan)品,覆盖大模型、机器人(ren)和自(zi)动驾驶等场景。

智芯科顾渝骢:详解SRAM存算一体技术优势,将研发服务器和穿戴芯片 | GACS 2024

▲智芯科创始人兼CEO 顾渝骢

以下为顾渝骢的演讲实录:

我(wo)(wo)是智芯科的创始(shi)人。我(wo)(wo)们目前(qian)主(zhu)要的研(yan)究方向是基于SRAM的存算一(yi)体(ti)创新技(ji)术。我(wo)(wo)们从2019年就开始(shi)研(yan)究这个(ge)技(ji)术,目前(qian)正在为这个(ge)技(ji)术找到各种各样(yang)的落地场景。

我个人认为,未(wei)来具身(shen)智能一定(ding)是该(gai)技(ji)术最(zui)大(da)的落地场(chang)景,类似于人(ren)(ren)(ren)(ren)(ren)的发展。人(ren)(ren)(ren)(ren)(ren)形(xing)(xing)机(ji)器人(ren)(ren)(ren)(ren)(ren)的出(chu)现,可能会(hui)改变人(ren)(ren)(ren)(ren)(ren)们的生活(huo)体验,每个家庭(ting)以(yi)后都(dou)会(hui)有(you)1个,甚至多个人(ren)(ren)(ren)(ren)(ren)形(xing)(xing)机(ji)器人(ren)(ren)(ren)(ren)(ren)。

一、低延时且低功耗,将有效解决人形机器人的智能和传感两大问题

如何(he)解决人(ren)形(xing)机器人(ren)的(de)智能问题(ti),以及(ji)它的(de)传(chuan)感问题(ti)呢(ni)?那么,我们需要提(ti)出一些新的(de)芯(xin)片。

具身智能的样式形形色色,有人形的、有类狗型的、有无人机式的。这些都可以叫具身智能。而具身智能最大的(de)一个特点是要能给(ji)出实时反应。

我前两天看(kan)了一(yi)个视频,机器人走(zou)上演示台的过(guo)程中可能要摔跤了,像(xiang)这(zhei)种情况,机器人必须要有很快的速度才能反(fan)应过(guo)来。

传统的芯片虽然也用到了AI,但是反应速度延迟,可能会出问题。它不能够及时把数据传到云端,再快速传回来。虽然这其中的延迟只是毫秒级别的,但机器人可能已经摔倒了。因此(ci),为(wei)了(le)减少(shao)延迟,我们必(bi)须要解决(jue)不用5G或者6G连(lian)云端,而是(shi)让算力直接“上身(shen)”到机器(qi)人,成为(wei)机器(qi)人的“小(xiao)脑”。

“小脑”问(wen)题解决之后,我们就(jiu)应该提(ti)高(gao)机(ji)器(qi)人(ren)的续航能(neng)力。如果一个(ge)机(ji)器(qi)人(ren)在家里面干不(bu)了几个(ge)小时,又要休息,又要充电,显然(ran)不(bu)太合理。

我个人(ren)认为,未来大家都会(hui)非常(chang)关(guan)注高能效AI芯片,而存算一体可能是目前看来比较现实的方法。我相信一个好的产品肯定会把各种各样的先进技术集合在一起。我们会(hui)采用存算(suan)一体技术(shu)(shu),也会(hui)采用Chiplet技术(shu)(shu),来真正解决具身智(zhi)能大、小(xiao)脑(nao)的(de)功(gong)耗问(wen)题。

二、易读写、可异构、难替代,SRAM仍是存算一体技术的最优解

目前(qian),国内(nei)外大家都在关(guan)注存储器方(fang)面的问题。

英伟达(da)走的(de)是相(xiang)对来(lai)说(shuo)传统的(de)GPU、NPU的(de)路,这条路终究(jiu)会到头。现在英伟达(da)正在开发3nm工(gong)(gong)艺(yi),台(tai)积电甚至(zhi)已(yi)着手研发2nm工(gong)(gong)艺(yi)。1nm工(gong)(gong)艺(yi)、小于1nm工(gong)(gong)艺(yi)的(de)芯片(pian),我觉得已(yi)经要(yao)突破物理理论极限了(le)。

海内外都在推进存算一体技术的研究,主流方向是SRAM。我们要把存储(chu)和运算有机地结合在一起,突破原来(lai)的(de)冯·诺伊曼架构,这(zhei)样才能解决存储(chu)墙、功耗(hao)墙问题。

我们通常(chang)认为有4类(lei)存储器,包括(kuo)DRAM、SRAM、Flash等。这(zhei)3类(lei)都(dou)是(shi)现在比较成熟(shu)的存储工艺,每个(ge)都(dou)有各自的优缺点。

我们发现,相对来说,SRAM是比较经(jing)济的一种实现存算一体的方式。

首先它的读(du)写(xie)速度很(hen)快(kuai),它也(ye)没有读(du)写(xie)次数限制。目前还没有(you)一种新(xin)型存储(chu)器可以代(dai)替SRAM。

SRAM还有一个最大的好处,它可(ke)以异(yi)构,这(zhei)也是它和DRAM最大的不(bu)同。我(wo)可以把SRAM存算一体技术、CPU和GPU等组(zu)合(he)成(cheng)一个(ge)SoC芯片(pian)。

总的(de)来(lai)说,SRAM存算一体技术用在(zai)Transformer的(de)自注意力(Self-Attention)机制里,是(shi)非常有优(you)势的(de)。它可以快速并且无限次(ci)地刷新,而(er)每次(ci)的(de)计(ji)算结果,又(you)能以非常快的(de)速度存回(hui)去,从而(er)准备下一次(ci)的(de)计(ji)算。对于(yu)Attention机制里Q×K×V这个矩阵基本的(de)运算,想要真正实(shi)现低功(gong)耗,SRAM可以算是(shi)最好的(de)方案了。

三、芯片算力最小仅1GOPS,最大有1000TOPS,可针对不同场景定制

下面我们简单介绍一下智芯科。智芯科早在2019年就开始涉足存内计算领域,研发工作分布在深圳、杭州、合肥多地,期间也拿下不少专利,并且在(zai)SRAM模数混合的存算一体具备创新优势。我们不是采用模拟存内计算,而(er)是采用数字存内计算,这样可以达到精度无损、性能速(su)度非(fei)常(chang)好和能效比非(fei)常(chang)高(gao)的(de)效果。

同时,我们SRAM存内计(ji)算还可以支持矩阵稀(xi)疏(shu)性。传统的(de)(de)NPU一般采用Zero Skip技术,通(tong)过在矩(ju)阵运算(suan)时跳过或(huo)忽略矩(ju)阵中的(de)(de)零元素(su),来(lai)减少不必(bi)要的(de)(de)计算(suan)过程(cheng),从而提高(gao)整(zheng)体运算(suan)效率(lv)。

但(dan)是(shi)存内计(ji)算不需要做(zuo)这(zhei)些判断,如果是(shi)0的话,会自动(dong)省略(lve)(lve),甚至(zhi)里面有“0”这(zhei)个比特都(dou)可以省略(lve)(lve)。我们可以实现输(shu)入(ru)DIN稀(xi)疏(shu)和权(quan)重Weight稀(xi)疏(shu)。

最理(li)想的情况下(xia),假设稀疏性利用率为(wei)50%,SRAM存(cun)内计算(suan)在(zai)22nm就(jiu)可以(yi)做(zuo)到23TOPS/w的能效比。如果(guo)采用7nm、5nm等更先进的工艺,其效(xiao)率随之提(ti)高。

在拥有较好的(de)(de)硬件(jian)基础之上,开发(fa)一系(xi)列包括编译器在内的(de)(de)通(tong)用软件(jian)工(gong)具(ju),这是(shi)非常重要的(de)(de)。因此,智芯(xin)科的(de)(de)业务除了芯(xin)片研发(fa),也将(jiang)逐步(bu)拓展(zhan)到工(gong)具(ju)开发(fa)。

这是我们芯片的布局,基本上覆盖从1GOPS到1000TOPS算(suan)力规模的(de)(de)芯(xin)片,并(bing)且支持多(duo)模态能力。其(qi)中,小算(suan)力的(de)(de)芯(xin)片主要(yao)(yao)用(yong)于(yu)语(yu)音(yin)识别、语(yu)音(yin)交互(hu)等场景;AT700主要(yao)(yao)解决(jue)具(ju)身(shen)(shen)智能感知问(wen)题,比如具(ju)身(shen)(shen)机器人最重(zhong)要(yao)(yao)的(de)(de)视觉;AT800用(yong)于(yu)构建具(ju)身(shen)(shen)智能的(de)(de)“大(da)脑”;AT900则是车规级别的(de)(de)。

除此之外,我们将研发用于具备多模(mo)态能力(li)的边缘服务器、大算(suan)力(li)推理(li)服务器和各(ge)类(lei)穿(chuan)戴式设(she)备的芯片。