智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
在今年的云计算产业盛会AWS re:Invent上,亚马逊云科技(AWS)少见地公布了大量关于硬件基础设施及芯片的细节信息,包括自研服务器CPU Graviton系列、自研AI芯片Trainium系列、AI超级服务器、最大AI服务器集群等。
这场开诚布公的分享,既让我们窥得这家全球最大云计算巨头深厚的硬件基建功底,也让我们饱览了从CPU研发策略、先进封装、背面供电、AI芯片脉动阵列到芯片互连、AI网络的各种底层技术创新。尤其是对于云计算(suan)基础设施(shi)、数(shu)据中心(xin)芯片设计从业者而言,其中有(you)很多值(zhi)得细品(pin)的经验和思路(lu)。
大会期间,亚马逊云科技计算与网络副总裁Dave Brown还与智东西等少数媒体进一(yi)步就基础设施与(yu)芯片研发的策略(lve)和细节(jie)进行交流(liu)。他告诉智东西,Trainium3基本上所有设计都(dou)会围绕生成(cheng)式AI,AWS已披露Trainium3是其(qi)首款采用(yong)3nm工艺(yi)的(de)芯片,算力(li)上一代的(de)2倍、功耗降低40%,但目前透(tou)露技术细节可能为时(shi)尚(shang)早。他还剧透说亚马逊云科技预计明年会逐步发布更多细节。
一、CPU设计理念:不为基准测试而造芯
亚马(ma)逊(xun)云科技(ji)的(de)自(zi)研服务(wu)器CPU和(he)AI芯(xin)片均(jun)已在其数据(ju)中心落地,被许多知名IT企业采(cai)用。连苹果都是其座上宾,在构(gou)建Apple Intelligence等AI服务(wu)的(de)背后用到了Graviton3、Inferentia2、Trainium2等亚马(ma)逊(xun)云科技(ji)自(zi)研芯(xin)片。
据Dave Brown分享,亚马逊云科技数据中心里用到的服务器CPU中,过去两年有超过50%的新增CPU容量是其自研服务器CPU芯片Gravtion。全球最大购物节之一亚马逊Prime Day有超过25万个Graviton CPU支持操作。
在2018年,亚马逊云(yun)科(ke)技看到Arm核心发(fa)展变快,萌生了结(jie)合这(zhei)种技术(shu)曲线与亚马逊云(yun)科(ke)技客户需(xu)求(qiu)开发(fa)一(yi)个定(ding)制通用处理器的念头(tou)。Graviton由此诞(dan)生,其推出和落地也带来(lai)了Arm芯片真正进入(ru)数据中心的时刻。
今天,Graviton被几乎每个亚马逊云科技客户广泛使用。90%的前1000个Amazon EC2客户都开始使用Graviton。
Graviton4是当前最强大的(de)亚马逊云(yun)科技(ji)自(zi)研(yan)服务(wu)器CPU,每个(ge)核心(xin)提(ti)供(gong)30%更(geng)多的(de)计算能力,vCPU数量和内(nei)存是上一代的(de)3倍,尤其(qi)适用于大型数据库(ku)、复杂分析(xi)等要(yao)求(qiu)最高(gao)的(de)企(qi)业工(gong)作负载。
Dave Brown强调说,在设计芯片时,亚马逊云科技不是奔着赢得基准测试,而是专注于实际工作负载性能。
在他看来,业界热衷于优化基(ji)准测(ce)试(shi),就(jiu)像是“通过100米短跑来(lai)训(xun)练马拉松”。实际工(gong)作(zuo)负载的(de)行为与整洁的(de)基(ji)准测(ce)试(shi)截(jie)然不符,它(ta)们(men)是混乱的(de)、不可(ke)预测(ce)的(de),真实工(gong)作(zuo)负载遇到(dao)的(de)问题可(ke)能与微基(ji)准测(ce)试(shi)完(wan)全不同(tong)。
比如,理论上,Graviton3的性能比Graviton2提高了30%,但测试Nginx时性能提升多达60%,因为亚马逊云科技极大减少了分支错误预测。Graviton4也类似,微基准测试分数比上一代提高了25%,运行真实MySQL工作负载的表现则足足提高了40%。
现(xian)代CPU就像一个(ge)复杂的(de)汇编管道(dao),前(qian)端(duan)(duan)获取和解码指令,后端(duan)(duan)执(zhi)行(xing)指令。
在评(ping)估性能(neng)时,亚马逊(xun)云(yun)科技(ji)会(hui)查看(kan)不同(tong)工作(zuo)负载对(dui)CPU微架构的(de)压(ya)力(li),比如工作(zuo)负载是否对(dui)前端停摆敏(min)感,前端停摆受(shou)分支数量、分支目标或(huo)指令等(deng)因素的(de)影响(xiang),或(huo)者后端停顿受(shou)L1、L2和L3缓存中的(de)数据(ju)以(yi)及指令窗口大小的(de)影响(xiang)。
对于每一代的(de)Graviton,客户(hu)都(dou)可以简(jian)单地切换到(dao)最(zui)新的(de)实(shi)例类型,并立即看到(dao)更好的(de)性(xing)能。
在安全性上,亚马逊云科技还加密了(le)Graviton4与(yu)Nitro之间的(de)PCIe链路,做到更极致的(de)全流程安全防护。
二、高性能芯片设计的关键黑科技:先进封装与背面供电
几年前,封装还很(hen)简单,基本上(shang)是一种(zhong)封装单个芯片并将其连接到(dao)主板的方法。但现在这个方案变得先进很(hen)多。你可以把先进封装想象成用一种叫做中介层(interposer)的特殊设备把几个芯片连接在一个封装里。
中(zhong)介层本身实(shi)际(ji)上是一个(ge)Chiplet,它作为一个(ge)微型主(zhu)板,提供了连(lian)接芯片的能力,其带宽是普通PCB主(zhu)板的10倍(bei)。
Graviton3和Graviton4都采用了先进封装技术(shu)。Graviton4有7个Chiplet,中间大芯片是计算核心,外围更小的芯片做一些事情,比如允许芯片访问内存和系统总线的其他部分。通过分离计算核心,亚马逊云科技有效地将Graviton4的核心数量增加50%。
这种方法对(dui)Graviton非常有帮助,但引入AI芯片(pian)设计中会遇(yu)到(dao)一些(xie)挑战。
2018年,看到加速器实(shi)例和深度学习趋势后(hou),亚马逊云科技决定(ding)构建AI芯片(pian)。其首款自研(yan)AI芯片(pian)是2019年的(de)(de)Inferentia,能够(gou)切(qie)实(shi)降(jiang)低小型推理工作负载的(de)(de)成(cheng)本,比(bi)如亚马逊Alexa通过迁(qian)移到Inferentia节(jie)省了(le)大(da)量资金。
2022年,亚马(ma)逊云科技推出了其首款自研AI训练芯片Trainium1,并实现可将在Trainium1上(shang)运(yun)行(xing)的(de)工(gong)作(zuo)负载节省(sheng)约50%。
亚马逊云科技高级副总裁Peter DeSantis在re:Invent大会现场展示了Trainium2的封装,里面有两颗计算芯片并排放在中间。其计算die的晶体管数量是Trainium1计算die的2.2倍。
想(xiang)在一个系统上获得最(zui)多的计(ji)算(suan)和内存,要用先(xian)进(jin)的封(feng)装或制造技术来制造大(da)芯(xin)(xin)片。Trainium2上就是这(zhei)样做的。但这(zhei)遇到了第一个工程极限——芯(xin)(xin)片制造有(you)尺(chi)寸限制,在800平方(fang)毫米左右。
每个(ge)(ge)计算芯(xin)片旁(pang)边的两颗芯(xin)片是HBM内存(cun)堆栈,每个(ge)(ge)计算芯(xin)片Chiplet通过(guo)CoWoS-S/R封(feng)装与两个(ge)(ge)HBM堆栈通信。通过堆叠芯片,可将(jiang)更多(duo)内存装入相同区域,从而减少消耗、释放(fang)的(de)能量。
那为什么不(bu)能(neng)把封装做得更大呢?这(zhei)就是第二个限制(zhi)所(suo)在。
今天的(de)封装实际上(shang)被(bei)限制在最(zui)大芯片尺(chi)寸的(de)3倍左右(you)。假如将计算芯片和(he)HBM取(qu)出,可以看到(dao)中间(jian)层,下(xia)面(mian)有用来连(lian)接(jie)芯片和(he)中介器(qi)的(de)微(wei)凸点。
这是亚马逊云科技旗下(xia)Annapurna芯(xin)片(pian)(pian)团队制作的(de)一张图(tu)片(pian)(pian)。他们沿(yan)着紫色的(de)线仔细切出了芯(xin)片(pian)(pian)的(de)横截(jie)面,然(ran)后用显微镜从(cong)侧面放(fang)大图(tu)像。左上(shang)角是计算芯片,旁边(bian)有HBM模(mo)块,HBM模(mo)块层都位于一(yi)个薄(bo)的连续晶(jing)圆上(shang)。芯片和(he)中间层顶部之间的电连接非常小,每(mei)个大约是(shi)100μm,比细(xi)盐粒(li)还(hai)小。
而要让(rang)芯片保持(chi)稳(wen)定(ding)连接,就必须得限制封装大小。
同时,Trainium2还引入了背面供电,把电源线挪(nuo)到晶圆背面(mian),以减少(shao)布线拥塞。
半导体利用微小(xiao)电(dian)荷的(de)存在或(huo)不(bu)存在来(lai)存储(chu)和处理信息,当芯片遇到(dao)电(dian)压(ya)(ya)下(xia)降时,它(ta)们通常得等待到(dao)供电(dian)系(xi)统调整(zheng)。芯片在完成计算任(ren)务需(xu)要提供大量(liang)(liang)的(de)能量(liang)(liang),为了在低电(dian)压(ya)(ya)下(xia)传输所(suo)有的(de)能量(liang)(liang),需(xu)要使用大电(dian)线,减少(shao)电(dian)路传输长度,从而来(lai)避免所(suo)谓(wei)的(de)电(dian)压(ya)(ya)下(xia)降。
三、打造最强AI硬件猛兽,背后的技术秘方
训练更大的模型,需要构建更好的AI基础设施、更强大的服务器集群。这要求有更好的AI芯片和AI网络。
在re:Invent大(da)会上,亚马逊云科技着重(zhong)(zhong)公布了几个重(zhong)(zhong)磅AI硬件产品。
一是亚马逊和Anthropic正在合作构建的Project Rainier,一个拥有数十万颗Trainium2芯片的超级服务器集群。这个集群将具备Anthropic目前用于训练其领先的Claude模型的集群5倍的计算能力。
二是能训练和部署世界上最大模型的(de)Trainum2超级服务器。它连接了4个计算节点,集成了64个Trainium2芯片,将峰值算力扩展至83.2PFLOPS,稀疏算力更是高至332.8PFLOPS,将单个实例的计算、内存和网络性能提高4倍。
三是亚马逊云科技迄今做机器学习训练最高能效的服务器——Trainium2服务器。一个Trainium2服务器容纳有16个Trainium2芯片,可在单个计算节点提供20.8PFLOPS的计算能力。由Trainium2芯片提供支持的Amazon EC2 Trn2实例也正式可用,可提供比当前GPU驱动的实例高出30%~40%的性价比。
这些Trainium2芯片通过超快的NeuronLink互连技术连接在一起。
在芯片设计上,Dave Brown讲解了CPU、GPU、NPU三(san)类芯(xin)片微架(jia)构的不同。
CPU针对大量(liang)复杂逻(luo)辑的快速执(zhi)行,每(mei)个(ge)缓存对应控制引擎和执(zhi)行引擎。
GPU主要用于(yu)数据(ju)并(bing)行(xing),控(kong)制单(dan)元(yuan)(yuan)较(jiao)少,执行(xing)单(dan)元(yuan)(yuan)多。其运(yun)算过程会涉(she)及一些数据(ju)在缓存(cun)和(he)HBM内存(cun)之间的倒换。
为了减少无效的内存占用,亚马逊云科技Trainium芯片采用的是脉动阵列(Systolic Arrays)架构,与谷歌TPU如出一辙,直接传递计算结果,能够降低内存带宽需求。
在生态建设上,亚马逊云科技提供了一个其自研AI芯片的专用编译语言新Neuron Kernel接口(NKI),用(yong)于(yu)方便(bian)开发者(zhe)直接对其AI芯(xin)片进(jin)行深度调试,从而(er)更充分地挖(wa)掘(jue)芯(xin)片性(xing)能(neng)。
单芯片的性能强(qiang),在实际落地中未(wei)必(bi)管用。要支撑起业界最大的大模(mo)型(xing)训练(lian)和推(tui)理,必(bi)须能够(gou)提高大量芯片互连时(shi)的系统级(ji)算(suan)力利(li)用率(lv)。
亚马逊云科技自研的NeuronLink芯片到芯片互连技术可将多个Trainium2服务器组合成一个逻辑服务器,带宽为2TB/s,延迟为1μs。
与(yu)传统高速网(wang)络协议网(wang)络不同的是,NeuronLink服(fu)务器可以直接访(fang)问(wen)彼(bi)此的内(nei)存(cun),从而创(chuang)造出一台“超级服(fu)务器”。
Peter DeSantis也花时间科普(pu)了(le)一下为什么大模型推理越来越重要(yao)(yao),以及(ji)它对AI基础(chu)设施提(ti)出了(le)怎样的新(xin)要(yao)(yao)求。
大模型推理有两种工作负载——预填充(prefill)和token生成。预填充是输入编码,其中处理提示和其他模型输入,为token生成做准备。这个过程需要大量的计算资源来将输入转换成传递给下一个进程的数据结构。完成后,计算出的数据结构将被传递给第二个推理工作负载,由它生成token。
Token生成的(de)(de)有趣之处(chu)在于,模(mo)型按顺序生成每(mei)个(ge)token,一(yi)次(ci)一(yi)个(ge)。这对AI基础(chu)设施提出了(le)非常(chang)不(bu)同的(de)(de)要(yao)求,每(mei)次(ci)生成token时,必须从内存中(zhong)读(du)取整个(ge)模(mo)型,因(yin)此(ci)会对内存总线产生大(da)量(liang)需求,但(dan)它(ta)只(zhi)使用少量(liang)的(de)(de)计算,几(ji)乎与(yu)预填充(chong)工作(zuo)负载完全相反。
这些工作量差异对AI基础(chu)设施意味(wei)着什么呢?一旦token开始生成,只需要以超过人类阅读速度的速度生成它们。这不是很快,但当模型越来越多地用于agentic工作流,在进入工作流的下一步之前,需要生成整个响应。所以现在客户关心的是快速预填充和快速token生成。
对真正快速推理的(de)渴望,意味着AI推理工作(zuo)负载也寻求使用最强大的(de)AI服务器。这两种不同工作负荷是互补的。预填充需要更多的计算,token生成需要更多的内存带宽,所以在同一个强大的AI服务器上运行它们可以帮助实现出色的性能和效率。
这就(jiu)解释(shi)了亚(ya)马逊云(yun)科技力推(tui)自(zi)研AI服(fu)务器(qi)及(ji)集(ji)群的核心驱动(dong)力。
四、如何构建AI网络?10p10u架构、定制光纤电缆及插头、混合式路由协议
云(yun)网络需要(yao)快速扩展以适应(ying)增(zeng)长,亚马逊云(yun)科技每天向全(quan)球(qiu)数据中心添加数千台服务器。但AI的扩展速度更快。
据Peter DeSantis分(fen)享,亚马(ma)逊(xun)云科技的云网(wang)(wang)络(luo)在可(ke)靠性(xing)方面已经做到99.999%。AI工作负(fu)载对规模(mo)、速度(du)、可(ke)靠性(xing)的要(yao)求更甚。如果AI网(wang)(wang)络(luo)经历了(le)短暂(zan)的故障,整(zheng)个集群(qun)的训(xun)练过程可(ke)能会延(yan)迟,导致资(zi)源闲置和(he)训(xun)练时间延(yan)长。
如何在云网络的创新基础上构建一个AI网络呢?亚马逊云科技打造了10p10u网络。
10p10u的物理架构与传统CLOS网络架构区别不大,亮点是实现了10Pbps传输带宽、10μs网络延迟,连起来后组成可用于训练的超级集群。
下图展示了亚马(ma)逊云科技在(zai)不同网络结构中安(an)装(zhuang)的链接(jie)数量,其中10p10u在(zai)过(guo)去12个月(yue)已安(an)装(zhuang)超过(guo)300万条。
结构如下图所示,采用简(jian)化的(de)无电缆机箱设计,左侧是8张Nitro卡,右(you)侧是两颗Trainium2加速器。
大量的(de)(de)光缆进入机架,要构建这(zhei)样的(de)(de)密(mi)集网络结构,需要非常精确的(de)(de)互(hu)连交换机,并要应对复杂性大大增(zeng)加的(de)(de)挑战(zhan)。
针(zhen)对布(bu)线复杂问(wen)题,亚马逊(xun)云科技研制了(le)一(yi)些特殊的光(guang)纤(xian)电缆、光(guang)纤(xian)插头,并针(zhen)对超大规模(mo)集群打造(zao)了(le)一(yi)种全(quan)新网(wang)络路由协议(yi)。
其中一个创新是开发了一个定制的光纤电缆Fiber optical trunk cable。可以把它当成一根超级电缆,它将16根独立的光纤电缆组合成一个坚固的连接器,能够大大简化组装过程,消除连接错误的风险。
使用主干连接器将在AI机架上的安装时间缩短了54%,而且做到看起来更整洁了。
还有定制光纤插头——Firefly Optic Plug。
这个巧妙(miao)的低成本(ben)设(she)备就像一个微型信号反射器,支持在(zai)机(ji)架到达数据中心之前(qian)进行全面测试和验证网络(luo)连(lian)接。这意味着服务器到达时(shi)(shi),不会浪费任何时(shi)(shi)间调试、布(bu)线(xian)。
此外(wai),即使是微(wei)小的灰(hui)尘(chen)颗粒,也会显(xian)著降低完整性并造成(cheng)网络(luo)性能问题。而Firefly Optic Plug具有双(shuang)重保护密封功能,可防(fang)止灰(hui)尘(chen)颗粒进(jin)入光纤(xian)连接。
最后一个挑战是提供更高的网络可靠性。
亚马逊云科技对光链路的可靠性做了很多优化,将失败率降低到(dao)0.002以下。
AI网络中最(zui)大的(de)故障(zhang)来源是光链(lian)路。光链(lian)路是微型激光模块(kuai),在电缆上发送和接(jie)收(shou)光信号。这些失(shi)败不可能被完全消除(chu),因此需要考虑(lv)如何减少失(shi)败的(de)影响。
每个(ge)网(wang)络(luo)交换机(ji)都需(xu)要数(shu)据来告诉它们如何路由(you)数(shu)据包。在(zai)AI网(wang)络(luo)中,这个(ge)地图(tu)可能需(xu)要考虑数(shu)十万(wan)条路径。每次光链(lian)路出现(xian)故障,映射(she)就需(xu)要更新。
如何快速而(er)可(ke)靠地做到这一点?最简(jian)单(dan)的方法是(shi)集中管理映射。
优化网络听起来很吸引人,但当网络规(gui)模庞(pang)大时,中(zhong)央(yang)控(kong)制就会成为瓶(ping)颈(jing)。检测(ce)故障会很困(kun)难,交换机(ji)更新可能(neng)非常缓慢,而且中央控(kong)制器是单点故障。这就(jiu)是为什(shen)么大(da)型(xing)网(wang)络通(tong)常使用BGP和(he)OSPF等协议去中心(xin)化的(de)原因。
然而去中心(xin)化的方案也不完美。在(zai)大型网络(luo)中(zhong),当链路出现(xian)故障时,网络(luo)交(jiao)换机需要(yao)花费(fei)大量时间进行(xing)协作,并为网络(luo)找(zhao)到新的最优映(ying)射。
也就是说,在面对超大规模集群组网时,集中式和分布式的传统路由协议都面临挑战。
面临次优选择时,则需要开辟一条新的道路。对此,亚马逊云科技研发了一种全新的混合式网络路由协议SIDR(Scalable Intent Driven Routing),通过将集中式和分布式控制的优势相结合,能(neng)在很短(duan)时间内重新(xin)规(gui)划网(wang)络路径,为超大规(gui)模集群提供更好的快速故障检测、响应和恢复(fu)能(neng)力。
SIDR可以简单理解(jie)成让中(zhong)央计划(hua)者将(jiang)网络分解(jie)成一个结构(gou),这(zhei)个结构(gou)可以下推到网络中(zhong)的(de)所有(you)交换(huan)机。这(zhei)样它(ta)们看到故障(zhang)时(shi),就能做(zuo)出快速、自(zi)主的(de)决定。 结果,SIDR能在1秒内响应故障,而且在亚马逊云科技网络上做到比其他替代方法快10倍。其他网络可能还在重新计算路线,10p10u网络已经恢复工作了。
结语:云大厂自研芯片的风向标
作为在自研芯片落地上最成功的云计算大厂之一,亚马逊云科技的芯片设计经验、自研芯片对云业务的实际影响、迭代与创新方向一直备受关注。在接受智东西等媒体采访期间,Dave Brown也总结了亚马逊云科技自研芯片的一些关键优势,包括成本低、规模大、落地快、稳定可靠等。
成本上,如果选用Trainium2可将成本较H100降低50%,那么这对客户或许是很有吸引力的点。
规模上,亚马逊云科技的规模确保其芯片能够正常运行,会在推出Trainium前做大量测试,确保芯片一旦推出就一定会成功,不会出现硬件需要撤回的情况。
规模大还意味着更容易获得所需的产能。Dave Brown提到亚(ya)马逊云科(ke)技(ji)与英(ying)特尔、台(tai)积电等(deng)企业(ye)的(de)(de)合(he)(he)作顺利,认为台(tai)积电到美国(guo)凤凰城投资(zi)建(jian)厂是明(ming)智之(zhi)(zhi)选。亚(ya)马逊云科(ke)技(ji)致力(li)于实现供应链多元化,是台(tai)积电的(de)(de)最大客户之(zhi)(zhi)一,也一直与英(ying)特尔紧(jin)密合(he)(he)作,互相帮助进行(xing)设计创(chuang)新,预计不会受领导(dao)层变动的(de)(de)影响。
落地上,亚马逊云科技有专门团队,负责立即能将芯片放到服务器中,中间不存在一两个月的耽搁延误,因此能缩短落地时间,有足够好的芯片来支持客户进行大语言模型的训练。
还有完整的产品组合和可靠服务。亚马逊云科技提供不仅仅是芯片,还包括存储、Kubernetes服务器、API、安全、网络等,这样丰富的组合拳是其他供应商难以提供的。在稳定性上,亚马逊云科技同样具备优势,在(zai)及(ji)时(shi)诊(zhen)断(duan)和修补遇到的问题、确(que)保服(fu)务(wu)不受影(ying)响方面(mian)已经深得(de)云(yun)服(fu)务(wu)客户的信任。
生成式AI浪潮推动下游市场对更高(gao)性能、高(gao)性价比、灵(ling)活可(ke)定制的AI基础设施提(ti)(ti)出了强需(xu)求(qiu)。而亚(ya)马逊云科技(ji)在AI基础设施底层技(ji)术与(yu)工程(cheng)上的探索(suo)与(yu)创新,正为(wei)业界提(ti)(ti)供(gong)一个既能适应客(ke)户业务需(xu)求(qiu)、降低系统复杂(za)性又(you)能提(ti)(ti)高(gao)供(gong)应链话(hua)语权的出色参考范本。