芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
芯(xin)东西8月(yue)6日(ri)报道,昨晚,“英伟达劲敌(di)”之一(yi)Groq甩出了两个(ge)重磅新闻:
1、获得(de)6.4亿(yi)美元D轮融资,由贝莱德领投(tou),思科、三星旗(qi)下风投(tou)机构等跟(gen)投(tou),估(gu)值达28亿(yi)美元(折合约(yue)200亿(yi)人民币)。
2、请来2018年图灵奖得主(zhu)、“深度学(xue)习三巨头之(zhi)一(yi)”、纽约(yue)大学(xue)教授(shou)、Meta副总裁兼首席AI科学(xue)家杨(yang)立昆(Yann LeCun),担任(ren)技术顾(gu)问(wen)。
杨立昆虽然经(jing)常接地(di)气地(di)跟马斯克隔空互喷,但论起AI学术界的(de)地(di)位(wei)、产学双栖的(de)实力,没有几人能(neng)比这(zhei)位(wei)AI重要奠基人物享有更高的(de)声誉(yu),而且是前沿世界模型的(de)“头(tou)号代(dai)言人”。
天天喊话(hua)AI产业大佬(lao)的Groq,这回真(zhen)“傍”上了一(yi)位(wei)重(zhong)量级大牛。
这家由谷歌TPU核心成(cheng)员搭伙创办的(de)创企堪称AI芯片界的(de)整活(huo)儿大师,刚成(cheng)立时主打神(shen)秘感,把技术(shu)和产品瞒得密不透(tou)风,吊足(zu)了业(ye)界的(de)胃口。
后来市场不及预期,生存遇到(dao)危机,Groq痛(tong)定思痛(tong),在(zai)抓(zhua)住生成式(shi)AI这(zhei)根救命稻草(cao)后画风(feng)突变,打出“世界最快推(tui)理”的(de)招牌(pai),接连喊话“宇(yu)宙网红”马(ma)斯克(ke)、OpenAI CEO萨姆·阿(a)尔特(te)曼、Meta创始人兼CEO马(ma)克(ke)·扎(zha)克(ke)伯格(ge),屡屡挑衅英(ying)伟达,跟(gen)刚(gang)成立时的(de)低调(diao)作(zuo)风(feng)判若(ruo)两司。

除了(le)搏眼球功夫深,它(ta)的吸(xi)粉能力也可(ke)圈(quan)可(ke)点(dian),不少知名(ming)大佬(lao)都(dou)给(ji)它(ta)打过广告。
杨立昆说(shuo)“Groq芯片真的很有市场”。扎克(ke)伯(bo)格宣(xuan)布Groq将为Meta Llama 3.1大语言模(mo)型(xing)提供(gong)推(tui)理(li)芯片。原阿里副总裁、创办(ban)AI Infra创企Lepton AI的贾扬(yang)清自称是“Groq超(chao)级粉丝”。
这次(ci)新融资后(hou),硅谷AI芯片三(san)大独角兽——Groq(估(gu)值(zhi)28亿美元(yuan)(yuan))、Cerebras(估(gu)值(zhi)40亿美元(yuan)(yuan))、SambaNova(估(gu)值(zhi)51亿美元(yuan)(yuan))——终(zhong)于在200亿人民币估(gu)值(zhi)俱乐部会师。
一、融资金额比预期翻倍,今年销售额可能达1亿美元
全球最大AI计算巨(ju)头(tou)英伟达的(de)市值已(yi)经一度飙升到(dao)3万亿(yi)美元(yuan),2023年营(ying)收(shou)达609亿(yi)美元(yuan)。
相比之下,Groq的体量还很小,根据《福布斯》看到的财务文件,这家创企2023年的销售额仅为340万美元,净亏损达到8830万美元。
不过消息人士称,Groq预计今年销售额可能乐观地达到1亿美元。
但走(zou)到今天这一步,对于这家AI芯(xin)片创企来说(shuo)已经是时来运转、柳(liu)暗花明了。
别(bie)看Groq是现在叫(jiao)板英伟达最起劲儿的AI芯片创企之一,在ChatGPT引爆全球生(sheng)成式(shi)AI热潮前,Groq曾(ceng)经历了一段很难熬(ao)的日子(zi)。
据(ju)联合创始(shi)人乔纳森·罗斯 (Jonathan Ross)回忆,Groq有好几次(ci)差(cha)点(dian)“死掉”,在2019年低谷期时再有一个(ge)月(yue)就(jiu)没(mei)钱了。
以至于罗(luo)斯后来(lai)都懊悔Groq创(chuang)办得有点早(zao)。
▲Groq创始人乔纳森·罗斯
2016年底,包括罗斯在内,谷歌(ge)TPU十(shi)位核(he)心成(cheng)员中的(de)八人(ren)悄(qiao)悄(qiao)离(li)职,合(he)伙创(chuang)立(li)Groq。
谷歌TPU,AlphaGo击败世(shi)界围棋冠军背后算力(li)的核心(xin)功(gong)臣,一(yi)战成名,带动(dong)起全球(qiu)专用(yong)AI芯片(pian)市(shi)场的火热。它的核心(xin)设计人(ren)员出走创业(ye),受关(guan)注程度可想而知。但Groq创立初期一(yi)路神(shen)隐(yin),悄(qiao)悄(qiao)熬过了一(yi)段缺钱窘境,直(zhi)到2019年年底才(cai)偶(ou)尔发(fa)发(fa)博客文章,满足一(yi)下业(ye)界的好奇心(xin)。
2017年(nian),Groq被报道(dao)获得1030万美元启动资金,这是它第一次出现(xian)在公众(zhong)视野。之后找到新投资者似乎就变得困难,Groq又(you)经历3轮融资,但累计金额仅6000多万美元。
直到2021年4月(yue),Groq终(zhong)于(yu)拿(na)到一笔(bi)相(xiang)对大(da)的3亿(yi)美(mei)元(yuan)(yuan)融资,总(zong)融资额超(chao)过3.6亿(yi)美(mei)元(yuan)(yuan),估值超(chao)过10亿(yi)美(mei)元(yuan)(yuan),跻(ji)身芯片独角兽俱乐(le)部。
时隔(ge)3年,Groq如今一口(kou)气获(huo)得6.4亿美(mei)(mei)元(yuan)新融(rong)资,总融(rong)资额越过10亿大(da)关,估值暴涨到(dao)28亿美(mei)(mei)元(yuan),比上(shang)次融(rong)资后估值的两倍还(hai)多。
罗斯(si)新发的(de)推文(wen)一股(gu)凡尔赛味儿:我们起初打算融(rong)资3亿美元来着,为了(le)能在(zai)2025年第一季度(du)末部(bu)署10.8万块IPU投(tou)入生产,谁(shei)承(cheng)想筹到2倍(bei)的(de)资金,所以也在(zai)扩大云计算和(he)核心工程团(tuan)队。
二、跑Llama 3 70B,快过GPT-4o mini
在发(fa)布旗舰大语(yu)言模型(xing)Llama 3.1 405B时,扎克伯(bo)格发(fa)表一篇题为《开(kai)源AI是前进的道路》的文(wen)章,其中(zhong)提(ti)到“像Groq这样(yang)的创(chuang)新者已(yi)为所有新模型(xing)构建了低延迟(chi)、低成本的推理服务”。
罗(luo)斯(si)称,相比用英伟达(da)GPU,LPU集(ji)群(qun)将为(wei)大语(yu)言推理提供更(geng)(geng)高(gao)吞吐量、更(geng)(geng)低延(yan)迟(chi)、更(geng)(geng)低成(cheng)本。
Groq自研的(de)(de)LPU(语言(yan)处(chu)理单元(yuan))旨在克服(fu)大语言(yan)模型的(de)(de)计算(suan)(suan)密度和(he)内存带宽瓶颈,计算(suan)(suan)能力超过(guo)GPU和(he)CPU,能够减少计算(suan)(suan)每个单词(ci)所需时间,更快(kuai)生成文(wen)本(ben)序列。

在(zai)ChatGPT掀起生成式AI热潮后,经(jing)历过濒临生存危机的Groq开启暴走(zou)模式,疯狂(kuang)宣传(chuan)自(zi)家(jia)AI推理(li)引擎(qing)LPU,号称做到“世界最快推理(li)”,并在(zai)社交平台上(shang)频繁发文(wen)和转发合作伙(huo)伴(ban)们、网友们对其LPU的实测结果和好评。
今年2月,根据Groq及一些(xie)网友分享的技(ji)术演示视频(pin),在LPU上运行大(da)语(yu)言模(mo)型Mixtral 8x7B-32k生成回(hui)答只用(yong)时(shi)11秒,而OpenAI ChatGPT 4需要花(hua)费(fei)长达(da)1分钟。

AI写(xie)作创(chuang)企(qi)HyperWriteAI CEO Matt Shumer称LPU“快(kuai)如(ru)闪电”、“不(bu)到1秒(miao)写(xie)出数百个单词”、“大语言模型(xing)的运行时间(jian)只(zhi)有几分之一秒(miao)”。
根据(ju)Artificial Analysis今年(nian)7月公布的(de)数(shu)据(ju),Groq以大约(yue)340tokens/s的(de)输出速(su)度提(ti)供Llama 3 70B,比GPT-4o mini的(de)两倍还快。
通用全(quan)球资(zi)本(ben)参与了Groq的(de)多(duo)轮融(rong)资(zi),其联合创始人埃米什·沙阿(Aemish Shah)称Groq产品的(de)推(tui)理速度“明显(xian)优于市场上(shang)任何(he)其他(ta)产品”。
在即时AI推(tui)理速度的吸引下,大批(pi)开(kai)发者涌向(xiang)Groq。
今(jin)年3月,Groq推出了一(yi)个由LPU驱(qu)动的开发者(zhe)平台GroqCloud。开发者(zhe)可(ke)以通过这一(yi)平台租用LPU芯(xin)片,而无需(xu)直(zhi)接购(gou)买。
该平台提(ti)供Meta Llama 3.1、OpenAI Whisper Large V3、谷歌Gemma、Mistral Mixtral等开(kai)源模型,支持在(zai)云实例中(zhong)使用其(qi)芯片(pian)的API。
为了吸引开发者,Groq提供免费访问:第一个月就有(you)7万(wan)人(ren)注册。现在已(yi)有(you)超(chao)过(guo)36万(wan)名开发人(ren)员(yuan)在GroqCloud上创建AI应用,数量还在增加。
Groq最近刚刚聘请(qing)了英特(te)尔(er)前代工业(ye)务前负(fu)责人、惠普前首席信息(xi)官斯图尔(er)特(te)·潘恩(Stuart Pann)担任首席运营官。潘恩对Groq的增长持乐观态度:在GroqCloud的客(ke)户(hu)订购中,超过1/4的客(ke)户(hu)要求支付更多的计算能力。
Groq打算用新(xin)融资(zi)扩大其TaaS(Token即(ji)服务)产品的版图,并为(wei)GroqCloud添加新(xin)的模型和(he)功能(neng)。
三、架构设计不走寻常路:没HBM、没CoWoS,比GPU效率高
Groq宣(xuan)称LPU在(zai)运行大语(yu)言(yan)模(mo)型及其他(ta)生成式AI模(mo)型等(deng)解(jie)决方案时,能效至少是GPU的10倍。
GroqChip1芯(xin)片(pian)(pian)采(cai)用(yong)14nm制(zhi)程,搭载230MB片(pian)(pian)上共享(xiang)SRAM,内存(cun)带宽达80TB/s,FP16算力(li)为(wei)188TFLOPS,int8算力(li)为(wei)750TOPS。

与很(hen)多(duo)大模型(xing)芯片不(bu)(bu)同的(de)(de)(de)是(shi),Groq的(de)(de)(de)芯片没有HBM、没有CoWoS,因(yin)此不(bu)(bu)受HBM供(gong)应短缺的(de)(de)(de)限制。它采用了(le)单核心时序指令(ling)集计算机架构,无需像使用HBM的(de)(de)(de)GPU那(nei)样频繁从内(nei)存中加载数据,能有效利(li)用每个(ge)时钟周期,降低成本,运行(xing)大语言模型(xing)的(de)(de)(de)速度更快。
▲传统GPU内存结构
▲Groq芯片内存结构(gou)
实(shi)时AI推理(li)是一个(ge)专门的系统问(wen)题(ti)。硬(ying)件和软件都在速(su)度和延迟方面发挥作用。再多的软件也无(wu)法克服芯片设(she)计和架(jia)构造成的硬(ying)件瓶颈(jing)。
Groq用软件定义硬件方法将(jiang)执行控制和(he)数据(ju)流控制的(de)(de)(de)决策(ce)步骤从硬件转移(yi)到了(le)编(bian)译器(qi)。通过精确调度每个内(nei)存(cun)负载、操作和(he)数据(ju)包传输(shu),确保最高的(de)(de)(de)性能和(he)最快(kuai)的(de)(de)(de)系统响应,释放了(le)额外的(de)(de)(de)芯(xin)片空间和(he)处(chu)理(li)能力。
▲Groq的(de)简化(hua)软件定义硬件方法释放了额外的(de)芯片空间和处(chu)理能力
编译(yi)器会(hui)将(jiang)模型(xing)划分为较(jiao)小的(de)块(kuai),这些(xie)块(kuai)在空间上映射到多个(ge)LPU芯片(pian)(pian)上。就(jiu)像一条计算装配线,每(mei)个(ge)LPU集(ji)群都设置为运行(xing)特定(ding)的(de)计算阶段,并将(jiang)执行(xing)该任务(wu)所需的(de)所有数(shu)据存储在其本(ben)地(di)片(pian)(pian)上 SRAM内存中,数(shu)据传输从LPU到LPU,不需要(yao)外部HBM芯片(pian)(pian)和外部路由器。
这种(zhong)高效的(de)流水(shui)线架构之所以(yi)可行,是因为(wei)LPU推理(li)引(yin)擎具有(you)完全确定性,系统准确地知道每(mei)个芯片上每(mei)个阶段发生(sheng)的(de)情况,使流水(shui)线能够(gou)以(yi)最高效率运行。
▲LPU(右)的可编程(cheng)流水线架构与GPU(左)方法更快更高(gao)效
根据(ju)Groq的描述,GPU的工作(zuo)方(fang)式是(shi)在小型芯片(pian)集群中运(yun)行,每个(ge)集群执(zhi)行生成(cheng)token所需(xu)的每个(ge)顺序计算阶(jie)(jie)段。在每个(ge)阶(jie)(jie)段,GPU从另一个(ge)芯片(pian)上(shang)的HBM中检索(suo)执(zhi)行该阶(jie)(jie)段所需(xu)的所有(you)数据(ju),完成(cheng)任务后,数据(ju)返回(hui)到片(pian)外HBM,所有(you)传(chuan)输(shu)数据(ju)都(dou)需(xu)要来自外部芯片(pian)的指示(shi),既低(di)效又昂贵。
Groq编译(yi)器将操(cao)作(zuo)直接映(ying)射到(dao)LPU,无需任何手动调优或(huo)实验(yan),因此LPU的设计非常(chang)简单(dan)。基于张量流式架构,LPU不需要CUDA或(huo)内核(he)。
▲单个LPU架构
“我(wo)们(men)的目标是在硬件上投入的每一美元都能获(huo)得(de)全(quan)额回报,我(wo)们(men)不(bu)想(xiang)赔钱。”罗斯说。
Groq从两年(nian)前(qian)开始销(xiao)售芯(xin)片,陆(lu)续(xu)获得客户(hu),已(yi)经(jing)与(yu)Meta、三星(xing)等多家公司(si)以及沙特阿拉伯等主权国家合作生产和推出(chu)其芯(xin)片。
阿贡国家(jia)实(shi)验室曾使用Groq的芯片研究核聚变。今年早些时候,Groq与(yu)(yu)沙特阿美数字公司(si)达成合作,计划在(zai)中东和北非地区建(jian)立最大的AI推理即服务计算基础设施之一;并与(yu)(yu)欧洲可持续能(neng)源公司(si)Earth Wind & Power合作,将在(zai)挪威(wei)数据中心部署数万块IPU。
目前Groq正在(zai)推(tui)进下(xia)一代芯片的(de)研发(fa)生(sheng)产(chan),去(qu)年(nian)8月宣布将与晶圆(yuan)代工(gong)厂(chang)格芯签订生(sheng)产(chan)4nm IPU的(de)合(he)同(tong)。
根据此前(qian)报道,Groq下(xia)一(yi)代芯(xin)(xin)片的(de)能效预(yu)计相(xiang)较(jiao)前(qian)一(yi)代提(ti)高15~20倍(bei),尺(chi)寸将(jiang)(jiang)变得更大。执行相(xiang)同任(ren)务所需的(de)芯(xin)(xin)片数量也(ye)将(jiang)(jiang)大幅减少。
在(zai)对Meta Llama 2 70B模型做(zuo)推理基准(zhun)测(ce)试时(shi),Groq将在(zai)9个机架中576块(kuai)芯(xin)片互连(lian)。而(er)到2025年完成这一(yi)任务,可能只需在(zai)2个机架使用大(da)约100块(kuai)芯(xin)片。
结语:AI芯片越来越热闹了
随着生成(cheng)式(shi)AI热潮持续,AI芯(xin)片市(shi)场前景可期(qi),Groq面临的竞争也(ye)日(ri)趋激烈。
根据Groq在今年(nian)4月发表(biao)的博客文章,到(dao)2027年(nian),AI芯(xin)片TAM市场(chang)预计(ji)将达到(dao)1194亿美(mei)元,当前约40%的AI芯(xin)片用于推理(li),应用程(cheng)序达到(dao)成熟(shu)后通常会将90-95%的资源(yuan)分配给推理(li),这表(biao)明随着时间的推移(yi),推理(li)市场(chang)会变得更大。
目前英伟(wei)达把控着70%~95%的AI芯片市场(chang)。谷歌、微(wei)软(ruan)、亚马逊(xun)、Meta等科(ke)技巨头(tou)均(jun)在自研AI芯片。OpenAI今年筹备启动一(yi)项(xiang)AI芯片制造计划(hua)。Arm也被(bei)传(chuan)将成立一(yi)个AI芯片部门。
多(duo)家(jia)AI芯(xin)片(pian)(pian)企业(ye)均有新动作(zuo)。去年年底,美(mei)(mei)(mei)国AI芯(xin)片(pian)(pian)创(chuang)企D-Matrix获得(de)1.1亿美(mei)(mei)(mei)元(yuan)B轮(lun)融资;今年6月,美(mei)(mei)(mei)国AI芯(xin)片(pian)(pian)创(chuang)企Etched宣布完成1.2亿美(mei)(mei)(mei)元(yuan)A轮(lun)融资,美(mei)(mei)(mei)国晶圆级芯(xin)片(pian)(pian)独角(jiao)兽Cerebras秘密申请IPO;7月,日本软银集团以6亿美(mei)(mei)(mei)元(yuan)收(shou)购英国AI芯(xin)片(pian)(pian)独角(jiao)兽Graphcore。
据外媒(mei)报道,一位风险投(tou)资(zi)家(jia)拒绝参(can)与Groq的新融资(zi),理由是Groq的方法虽(sui)然新颖,但(dan)从(cong)长远(yuan)来看(kan),其知识(shi)产权并不可靠。也有一些人质疑Groq大规模生产芯片的成(cheng)本效益。
要打(da)消市场的(de)种种疑(yi)虑,Groq仍需竭力(li)证明自家产品(pin)在推理(li)市场的(de)商用(yong)实(shi)力(li)。
毕竟这么多(duo)年来,“英伟达劲敌”越来越多(duo),但(dan)市值3万(wan)亿美元的英伟达始终只有一个。
来源:Groq,TechCrunch,Forbes


