芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
英(ying)伟达一夜(ye)杀(sha)疯了,连(lian)甩多项重磅发布,还把市(shi)值一度(du)送到了5万(wan)亿美元。
芯东西10月29日报道,截至美股最新收盘,英伟达股票创(chuang)(chuang)历史(shi)新高,达(da)到201美(mei)元/股(gu),市值达(da)4.89万(wan)亿美(mei)元。在夜(ye)盘交易(yi)中(zhong),英伟(wei)达(da)股(gu)价超过206美(mei)元/股(gu),市值突破(po)5万(wan)亿美(mei)元,创(chuang)(chuang)造新的历史(shi)时刻——史(shi)上(shang)第一家(jia)5万(wan)亿美(mei)元企业诞生(sheng)!
不出意外,今晚我们就可以见证英伟(wei)达市值正式(shi)踏(ta)过5万亿美元大关了。
今日,在华盛顿举行的GTC大会上,英伟达火力全开,面向AI、量子计算、开源模型、美国制造、企业计算、机器人、6G等七大领域哐哐发(fa)新(xin)品、甩(shuai)干货。
新品包括新一代DPU芯片BlueField-4、机器人计算平台NVIDIA IGX Thor、AI工厂蓝图Omniverse DSX、加速量子计算的高速互连技术NVIDIA NVQLink,还有全新产品线NVIDIA Aerial电信计算平台。
同时,英伟达宣布向全球第二大电信设备制造商诺基亚投资10亿美元(约合人民币71亿元),获得诺基亚2.9%股权。消息公布后(hou),诺基(ji)亚股价一(yi)度大涨29%。
英伟达创始人兼CEO黄仁勋再秀顶级科技带货实力,详细讲解为什么英伟达架构是业界“最稳妥”的选择,还透露英伟达两代GPU将在2026年实现累计高达5000亿美元(约合人民币3.55万亿元)的业务收入。
他还披露了下一代Vera Rubin超级芯片的部分规格:内置6万亿颗晶体管,配备2TB高速内存,AI算力高达100PFLOPS。1个Vera Rubin计算托盘有2块Vera Rubin超级芯片,能提供200PFLOPS的AI算力。
还有专为大规模上下文AI推理设计的新型GPU——Vera Rubin CPX(上下文处理器)。其计(ji)算托盘AI推理性能达到440PFLOPS。
他展(zhan)示了(le)一张全景图(tu),上面有英伟达要(yao)做的所有芯片及网络产品(pin):
- GPU:2025年~2027年陆续推出Rubin 8S HBM4、Rubin CPX、Rubin Ultra 16S HBM4e,2027~2028年推出搭载下一代HBM的Feynman芯片。
- CPU:未来三年都是Vera架构。
- DPU:今年推出BlueField-4,2027~2028年推出BlueField-5。
- NVLink Switch:每年迭代。
- Spectrum交换芯片与CX网卡:2025~2026年推出Spectrum6(102T,CPO)、CX9(1600G),2027~2028年推出Spectrum7(204T,CPO)和CX10。
- 机架:将推出更大的Kyber NVL576机架,总共有576块GPU。
这(zhei)张(zhang)图可(ke)以(yi)说(shuo)是(shi)教科书级的(de)数据中心(xin)基(ji)建产品规(gui)划了。
“你不可能只用一个芯片就能让计算机的速度提高10倍。”他谈道,要实现10倍提升,唯一的办法就是极致协同设计,同(tong)时推进(jin)所有(you)这些(xie)不同(tong)芯片(pian)的研发。
他详细说明了为什么英伟(wei)达GPU是(shi)最(zui)好的AI芯(xin)片选择,并(bing)提到英伟(wei)达是(shi)史上(shang)第一家能清(qing)晰看见到2026年能实现累计高(gao)达5000亿(yi)美元业(ye)务(wu)的公司。
在主题演讲中,黄仁勋(xun)非常清晰(xi)地阐(chan)述了英伟达发展的重点方向:
- 面向数据中心市场,打好“极致协同设计”这张牌,提供更快、更高性价比的AI基础设施软硬件,并通过手把手教企业建设和AI工厂,来加快扩大下游所需的AI算力规模。
- 面向物理AI市场,机器人、汽车与工业应用齐头并进,推出更高算力的计算平台、更好用的开发平台、更完整的Omniverse模拟仿真平台。
- 面向开源社区,持续开源语言模型、物理AI与机器人模型、生物医学模型及相关数据集。
- 面向电信行业,加速AI-RAN与AI原生6G发展将是重头戏。
- 面向量子计算,坚信混合量子-经典超级计算机是正确路线。
如果你想(xiang)了解前沿AI市场的风向,那么(me)黄仁勋最新的这场主题演讲(jiang),绝对值得仔细研读。
总体来看,英伟达(da)今日在GTC大会的发(fa)布涉及(ji)如下(xia)要点:
1、AI计算:晒战绩,订单簿上(shang)已经躺了价值5000亿美元的(de)业(ye)务,规划的(de)Blackwell出货量高(gao)达2000万块GPU。
2、极致协同设计:晒实力,披露Vera Rubin超级芯片、Vera Rubin上下文处(chu)理器及(ji)相关计算(suan)(suan)托盘配置(zhi)信息,AI算(suan)(suan)力多达440PFLOPS。
3、DPU:发布(bu)BlueField-4 DPU,为新型AI存储平(ping)台(tai)设计(ji),支持800Gb/s吞(tun)吐量(liang)。
4、机器人:推出基于Blackwell架(jia)构的IGX Thor机器人计(ji)算(suan)平(ping)台(tai),提供(gong)5581 FP4 TFLOPS的AI算(suan)力,支(zhi)持400GbE连接(jie),AI计(ji)算(suan)性能(neng)可达到其前(qian)代产品IGX Orin的8倍之多;宣(xuan)布(bu)富士康建设先进(jin)机器人设施。
5、汽车:介绍Drive Hyperion自动驾驶开发平台,宣(xuan)布与(yu)Uber合作,将(jiang)支持Uber无人出租车。
6、AI工厂:发布蓝图Omniverse DSX,首次将建筑、电力和冷却系统与英伟达的AI基础设施堆栈进行协同设计,帮企业更快构建和运营千兆AI工(gong)厂(chang)。
7、美国制造:Blackwell芯片已在美(mei)国全(quan)(quan)面量产,未来英伟(wei)达AI工厂将全(quan)(quan)部(bu)在美(mei)国本土制造,美(mei)国能源部(bu)宣布与英伟(wei)达合作共建7台全(quan)(quan)新AI超(chao)级计算(suan)机。
8、开源模型:新语言模(mo)型(xing)、世界模(mo)型(xing)和机(ji)器人模(mo)型(xing)、生物医学模(mo)型(xing)、数据(ju)集、无线通信软件通通开(kai)源。
9、6G:宣布(bu)与(yu)诺基亚建立战(zhan)略(lve)合作,推出支持6G的(de)电信计算平台NVIDIA Aerial ARC。
10、量子计算:发布NVLink量(liang)子互连架构NVIDIA NVQLink,将GPU与QPU(量(liang)子处(chu)理器)高速互连,实现量(liang)子硬(ying)件(jian)与计(ji)算系统之间数TB级数据(ju)交换。
除了(le)诺(nuo)基亚(ya)外,英伟达(da)也宣布(bu)了(le)与无人出租(zu)巨头Uber、医药巨头礼来、AI平台软件巨头Palantir等多(duo)家(jia)企(qi)业的合作(zuo)。
黄(huang)仁勋(xun)与多个(ge)代表性人形机(ji)器人的(de)合影(ying),已(yi)经是GTC大(da)会结束前的(de)经典节目。
退场(chang)时,GTC屏幕还(hai)播放了这些(xie)人形机器人跳舞的(de)彩蛋视频。
这周黄仁(ren)勋行程相当繁忙,马上要(yao)见美国总统特朗普,还(hai)要(yao)到韩国参加APEC会(hui)(hui)议(yi)中的工商(shang)领导人会(hui)(hui)峰(feng)会(hui)(hui),并(bing)出席GeForce显卡(ka)在(zai)韩国上市25周年的庆典。
美(mei)国总(zong)统特朗普周(zhou)二在日本东京对商界代表发表讲话时,透露将(jiang)于周(zhou)三会(hui)见黄仁勋。
另据外媒报道,黄(huang)仁勋计划在本周访问韩(han)国期间公布向三星、现代汽车(che)等韩(han)国科技(ji)巨头(tou)供应AI芯片的新合同,并将(jiang)与(yu)SK海(hai)力士高管(guan)会面。
上(shang)次黄仁勋(xun)去韩(han)国(guo),还是(shi)在15年前出席(xi)《星(xing)际争霸(ba)2》全球发布(bu)会。所以业界相当期待黄仁勋(xun)这次时隔已久的韩(han)国(guo)之旅,能(neng)释放(fang)关于HBM芯片、智能(neng)汽车的猛料(liao)。
甭管如今AI泡沫炒得有(you)多大,能站上5万亿美元,英伟达(da)靠的(de)刷子(zi),可(ke)远不止(zhi)两把。
一、AI计算:力荐英伟达架构“最稳妥”,订单簿已躺5000亿美元
或许是感受到AI芯片竞争的暗潮汹涌,在今日GTC大会上,黄(huang)仁勋长(zhang)篇大论地细数了英(ying)伟达的(de)种种价值:
“英伟达是当今世界上唯一一家能够真正从零(ling)开始,同时思考(kao)全新(xin)(xin)计算机架(jia)构、新(xin)(xin)芯片、新(xin)(xin)系(xi)统(tong)、新(xin)(xin)软件(jian)、新(xin)(xin)模型架(jia)构以及新(xin)(xin)应(ying)用的(de)厂(chang)商。”
为了论证英伟达产品多强,黄仁勋连Semi Analysis的基准测(ce)试(shi)都(dou)搬出(chu)来了,说他(ta)们测试了几乎所有可评测的(de)GPU,其中真正能进行(xing)有效对比的(de)GPU,90%都来自英伟达。
“世界上(shang)性能第(di)二好的(de)GPU是英伟达H200,”黄仁勋(xun)说,“而我(wo)们的(de)英伟达(da)(da)Grace Blackwell,每块GPU的(de)性能(neng)达(da)(da)到(dao)了H200的(de)10倍。”
当晶体(ti)管数量(liang)只增(zeng)加1倍,怎么实现10倍的性能(neng)提(ti)升(sheng)?
英伟达的答案是极致协同设计。
“世界上最便宜的token,是由Grace Blackwell + NVL72生成的。”黄仁勋解释道,GB200虽然成本(ben)高,但它(ta)token生成(cheng)能力(li)强啊,拿每(mei)秒(miao)钟生成的token数量除以总拥有成本(TCO)后(hou),它的性价比就体现出来(lai)了(le),是“生成(cheng)token成(cheng)本最低(di)的(de)方式”。
因此(ci),英伟达既有高性(xing)能(10倍提升),又达到(dao)低成本(ben)(降到(dao)1/10),这个(ge)正向循环可以(yi)持(chi)续下去(qu)。
说到成(cheng)本,黄仁勋提起六家云服(fu)务(wu)商(亚(ya)马逊(xun)、CoreWeave、谷(gu)歌、Meta、微软、甲骨文)计(ji)划投入的巨额资(zi)本支出。
这么(me)大(da)的客(ke)单,英(ying)伟达显然要牢牢抓住。
黄仁勋(xun)说,现在时机(ji)再好不过了(le),英伟达已(yi)实现Grace Blackwell + NVL72的大(da)规模量(liang)产,全球供应链都已(yi)准备就(jiu)绪,可以立(li)即向这些云厂商交付基于(yu)新架(jia)构的产品,让它们的资(zi)本支出(chu)投入到能提供最佳TCO的计(ji)算设(she)备上。
他还强调,英伟达的GPU是唯一一块既能支持(chi)传统计(ji)算任务、又能支持(chi)AI的(de)GPU。ASIC(专用集成电路)也(ye)许能做(zuo)AI,但它(ta)做(zuo)不了其他任务。而英伟达(da)的(de)方案能覆盖全部,这也(ye)说明了为(wei)什么选择(ze)英伟达(da)的(de)架构是最(zui)稳妥的(de)。
“据我所知,我们可能是历史上第一家,能够清晰看到未来累计高达5000亿美元Blackwell相关业务(包括Rubin早期出货)的公司,时间跨度覆盖到2026年。”黄(huang)仁勋透露,“要知道,2025年还没(mei)结束(shu),2026年还没(mei)开(kai)始,但我们的(de)订单簿上(shang)已经(jing)有这(zhei)么多(duo)了(le)——价值5000亿美(mei)元的(de)业务。”
截至目前,英伟达已在最初几个季度(大概是头四个季度,确切说是三个半季度)出货了600万块Blackwell GPU芯片。接下来五个季度,还有5000亿美元的业务量。这相当于Hopper整个生命周期5倍的增长速度。
Hopper在其整个生命周期里,一共出货了400万块GPU。这里说的Hopper生命(ming)周期,还不(bu)包(bao)括中国及(ji)其他亚洲(zhou)市(shi)场,仅指西方市(shi)场。
而每块Blackwell实际上内部封装了两块GPU。在Rubin早期阶段,英伟达规划的Blackwell出货量高达2000万块GPU,增长(zhang)极其(qi)惊人。
二、极致协同设计:Vera Rubin超级芯片AI算力达100P,还有长上下文推理专用GPU
每年(nian),英伟达(da)都会推(tui)出极(ji)致协同设计系统,持续(xu)推(tui)动性能提升,持续(xu)降低token生(sheng)成成本。
英伟达率先(xian)将计算规(gui)模(mo)扩(kuo)展(zhan)至整个机柜(ju)级,通过发明一种(zhong)新(xin)型AI以太(tai)网技术实现了横向扩(kuo)展(zhan),其Spectrum-XGS以太(tai)网可(ke)将多个数据中心连接,实现十亿瓦级扩(kuo)展(zhan)。
通过这种方式,英伟达(da)实(shi)现了极高程度(du)、极致的协同(tong)设计(extreme co-design)。
“这是(shi)我们有史以来构建的(de)(de)、最为极(ji)致的(de)(de)协同设计计算机(ji),坦白说,也是(shi)现代以来首次像这样从零开始、彻底重构的(de)(de)计算机(ji)。这个(ge)系统的(de)(de)研发极(ji)其艰难。”黄仁勋说。
他(ta)现场展示了(le)基于NVL72架构(gou)的“Blackwell硅盾(dun)”,有点像美(mei)国(guo)队长的盾(dun)牌。
AI模(mo)型(xing)正变得无(wu)比庞大(da)。英伟达的解决方法是在NVL72机架级系统上运行混合专家(jia)(MoE)模(mo)型(xing)。
将这个由数万亿参数构成的巨大AI模型拆分成多(duo)个“专家”,这些(xie)专家各自擅(shan)长处理某(mou)些(xie)特定类型的问题,把这些(xie)专家部署在GPU上。
NVL72可将所有芯片连接到一个庞大的互连网络,让每个专家都能互相通信。其(qi)中(zhong),主专(zhuan)家可以与所有执行实际工作的(de)专(zhuan)家交流(liu),传(chuan)递(di)所有必要的(de)上下文、提示词,以及封装成(cheng)token的(de)数据。被选中(zhong)解答(da)(da)问题的(de)专(zhuan)家,会逐层(ceng)去尝(chang)试生(sheng)成(cheng)回答(da)(da)。
每块GPU的HBM带宽是(shi)有(you)限的。在英(ying)伟(wei)达NVL72系统中(zhong)有(you)72块卡,1块GPU只需服务4个专家。
相比之(zhi)下,其他(ta)系(xi)统每(mei)(mei)台计算机只能容纳(na)8块GPU,因此每(mei)(mei)块GPU上不得不塞入32个专(zhuan)家。也就是说(shuo),这块GPU要为32个专(zhuan)家进行推理(li)。
因此NVL72系统能带来相(xiang)当可(ke)观的速(su)度提升(sheng)。
黄仁勋还(hai)展(zhan)示了英(ying)伟达(da)第三(san)代(dai)NVL72机架(jia)级计算机,完全无缆。当英(ying)伟达(da)还(hai)在交付GB300时(shi),Rubin已准备进入(ru)量产。
新一代Vera Rubin超级芯片内置6万亿颗晶体管,配备2TB高速内存,AI算力达到100PFLOPS,是9年前交付给OpenAI的DGX-1超级计算机算力的100倍。
一台Vera Rubin计算机,就能替换以前的25个机架。
Vera Rubin超级芯片的计算托盘安装起来极其简单,只需翻开卡扣,直接插进去就行。该计算托盘共有12万亿颗晶体管,可提供200PFLOPS AI算力。
如果你想添加一个特殊处理器,英伟达也提供了新的选择——上下文处理器(CPX)。
因为给AI输入的上下文信息越来越多,比如在回答问题之前,可能要读取大量PDF文件、查阅大量存档论文、观看大量视频,提前学习这些内容,所有这些上下文处理需求,都可以通过这个专为大规模上(shang)下文(wen)AI推(tui)理设计的新(xin)型GPU来满足。
Vera Rubin CPX计算托盘内置百万token级上下文加速器,AI推理性能达到440PFLOPS。
在(zai)托盘底部,有(you)8个(ge)(ge)ConnectX-9(CX9)、新一代SuperNIC、8个(ge)(ge)CPX GPU、BlueField-4 DPU、2个(ge)(ge)Vera CPU以及4个(ge)(ge)Rubin封(feng)装模块(也就(jiu)是8块Rubin GPU)。所有(you)这些组件都(dou)集成在(zai)这个(ge)(ge)单一节点中,完(wan)全无缆(lan)化设计,并采用100%液冷散热。
三、BlueField-4 DPU:800Gb/s吞吐量,支持4倍大的AI工厂
AI需(xu)要越(yue)来(lai)越(yue)多的(de)内存,记(ji)住(zhu)各(ge)种(zhong)(zhong)对(dui)话、学习种(zhong)(zhong)种(zhong)(zhong)内容的(de)记(ji)忆(yi)需(xu)求会产生(sheng)KV缓存(Key-Value缓存)。如今每次访问AI系统(tong),刷新和检索之前的(de)对(dui)话内容,花(hua)费的(de)时间越(yue)来(lai)越(yue)长(zhang)。
而解决这个问题,需要一种新处理器,它就是BlueField-4。
NVIDIA BlueField-4数据处理单元(DPU)支持800Gb/s的吞吐量,并实现高性能推理处理,预计将于2026年作为英伟达Vera Rubin平台的一部分(fen)提(ti)前(qian)推出。
BlueField-4专为新型AI存储平台打造,结合了英伟达Grace CPU和ConnectX-9网络,可提供6倍的算力,并支持比BlueField-3大4倍的(de)AI工厂,可加速千兆级AI基础设(she)施(shi)。
该DPU还具有多租户网络、快(kuai)速数据访问、AI运行(xing)时安全(quan)性(xing)和(he)(he)云弹性(xing),并原生支持NVIDIA DOCA微服务,可(ke)在(zai)单一(yi)统(tong)一(yi)框架(jia)内实现多种网络、安全(quan)、存储服务的无缝集成和(he)(he)管理。
专(zhuan)为NVIDIA Spectrum-X以(yi)太网(wang)打造的ConnectX-9 SuperNIC提(ti)供超低(di)延迟、800Gb/s网(wang)络,可加速数据传输(shu)、优化RoCE性能,提(ti)升千(qian)兆级AI基础(chu)架构的效率。
思科(ke)、DDN、戴尔(er)科(ke)技、HPE、IBM、联想、Supermicro、VAST Data、WEKA等服(fu)务器和存(cun)储(chu)企(qi)业正在使用(yong)BlueField构建下一代服(fu)务器和AI存(cun)储(chu)平台(tai),并计划采用(yong)BlueField-4。
四、“机器人大脑”AI算力飙8倍,支持400GbE连接
面向新兴的物理AI领域,英伟达今日推出一款由Blackwell架构提供支持的机器人计算平台NVIDIA IGX Thor。
该平台搭载两种英伟达Blackwell GPU——集成GPU(iGPU)和独立GPU(dGPU),可提供5581 FP4 TFLOPS的AI算力,并支持400GbE连接。
与上一代IGX Orin相比,IGX Thor在iGPU上可提供高达8倍的AI算力,在dGPU上可提供高达2.5倍的AI算力,并提供2倍的连接能力,能够在(zai)边(bian)缘无(wu)缝运(yun)行(xing)大语言(yan)模(mo)型(xing)和视觉(jue)语言(yan)模(mo)型(xing)。
▲NVIDIA Jetson IGX Thor开发者套件Mini
这款(kuan)工(gong)业级边(bian)(bian)缘(yuan)AI平台,旨在将实时(shi)物理(li)AI直接带到工(gong)业、医疗、机(ji)器人(ren)等边(bian)(bian)缘(yuan)计算应用(yong)(yong)领域,将高速传感器处(chu)理(li)、企业级可靠性(xing)和功能(neng)安全性(xing)结合(he)在一个用(yong)(yong)于(yu)桌(zhuo)面(mian)的(de)小型模块(kuai)中。
该平台拥有10年的(de)生命周期(qi),并长(zhang)期(qi)支持(chi)英伟达(da)AI软件栈。
此外,IGX Thor集成了NVIDIA Halos全栈安(an)全系(xi)统的元素,将(jiang)功能(neng)安(an)全嵌(qian)入到机(ji)器人、医疗和工业(ye)AI系(xi)统中,确保实现人机(ji)安(an)全协作(zuo)。
黄仁勋说,物理AI需要三台计算机(ji)。
- 第一台是用于训练的计算机,也就是Grace Blackwell + NVL72。
- 第二台是Omniverse计算机,用于模拟,即通过Omniverse DSX展示的模拟场景,本质上是机器人的数字孪生,让机器人学习如何成为优秀的机器人,也让工厂成为数字孪生工厂。
- 第三台计算机是机器人计算机,用来操作机器人。它可以安装在自动驾驶汽车中,也可以用于机器人。如果机器人操作敏捷、速度快,可能还需要两台这样的计算机。
这三台计(ji)算机都运(yun)行(xing)英伟(wei)达CUDA。
美国正在(zai)经历再(zai)工业化(hua),各个行(xing)业都在(zai)推(tui)动制造业回流。
在(zai)美国得克萨斯州休斯顿(dun),富(fu)士康正在(zai)建设(she)一个先(xian)进的机(ji)器人(ren)设(she)施(shi),用于制(zhi)造(zao)英伟达的AI基(ji)础设(she)施(shi)系(xi)统(tong)。
英伟达正与迪士(shi)尼研究团(tuan)队(dui)基于一项名为Newton的(de)技术,共同开发(fa)一个全(quan)新的(de)框架(jia)和模拟(ni)平台(tai)。Newton模拟(ni)器(qi)(qi)让机器(qi)(qi)人(ren)能够在(zai)具(ju)有物理感知的(de)环境(jing)中(zhong)学习如何成为一个优秀(xiu)的(de)机器(qi)(qi)人(ren)。
五、众多车企采用Drive Hyperion,与Uber合作直指10万辆无人车
人形机器人仍处于研发阶段。但与此同时,有一种机器人已经明显处于发展的拐点,那就是轮式机器人——机器人出租车(Robotaxi)。
黄仁勋认为,机器人出租车本质上就是(shi)一个(ge)“AI司(si)机”。
他将英伟(wei)达Drive Hyperion架构(gou)的诞生,称作“一项重大突破”。英伟(wei)达打(da)造这一架构(gou),是为了让全球每一家汽(qi)车(che)公司(si),无论是生产商用车(che)、乘(cheng)用车(che),还是专门用于机器(qi)人(ren)出租(zu)车(che)的车(che)辆,都能够制造出具备机器(qi)人(ren)出租(zu)车(che)功(gong)能的汽(qi)车(che)。
其配备的环(huan)绕摄像头、雷达和激光(guang)雷达等传感器(qi)套(tao)件,使(shi)英伟达能够实现最(zui)高级别(bie)的环(huan)绕感知和冗(rong)余,从而确保最(zui)高级别(bie)的安全(quan)性(xing)。
目(mu)前,Drive Hyperion架构已被应用于Lucid、梅(mei)赛德斯-奔驰(chi)等汽车品牌(pai),未(wei)来还会(hui)有更多汽车品牌(pai)加入。
有了这个标准平台,众多自(zi)动(dong)驾(jia)驶系统开发者就(jiu)能(neng)够将自(zi)己(ji)的自(zi)动(dong)驾(jia)驶系统部(bu)署到(dao)这个标准底(di)盘上。
这个标准(zhun)底盘实际(ji)上已经(jing)成(cheng)为了一个“车轮上的计算平台”。
黄仁(ren)勋分享了一些数据:未来,全球(qiu)每年(nian)行驶(shi)的(de)里程将达到万(wan)亿英里,每年(nian)生产(chan)的(de)汽车(che)(che)数量将达到1亿辆,全球(qiu)约有5000万(wan)辆出(chu)(chu)租车(che)(che),而机器人出(chu)(chu)租车(che)(che)将进一步扩充这一市场。
今日,英伟达与Uber宣布合作,将英伟达Drive Hyperion接入Uber全球(qiu)网(wang)络。
Uber将采用NVIDIA Drive AGX Hyperion 10自动驾驶开发平台,计划从2027年开始扩大将其全球自动驾驶汽车数量增加到10万辆,并由基于(yu)英伟达Cosmos平台构(gou)建的联合AI数据工厂提供(gong)支持。
DRIVE AGX Hyperion 10的核心是2个基于NVIDIA Blackwell架构的DRIVE AGX Thor车载平台。每个平台均提供超过2000 FP4 FLOPS(1000 TOPS INT8)的实时算力。
“未来,你将能够(gou)轻松(song)呼叫这些汽车,整(zheng)个生态系统将非常(chang)丰富,全球各地都将出现(xian)Hyperion或机器人出租车。这将成为(wei)我们(men)的一(yi)项(xiang)新计算平(ping)台,我预(yu)计它会取得巨大(da)成功。”黄(huang)仁勋撂(liao)下预(yu)言。
六、手把手教你建AI工厂,英伟达掏出模块化组合图纸
AI工厂是英伟(wei)达(da)未来增(zeng)收的(de)一(yi)大宏图伟(wei)业。
黄仁勋说,AI工厂本质上只做(zuo)一(yi)件事,就是运行AI,目的是生产尽可(ke)能有(you)价(jia)值的token,以极快速度、低成本地生产高价(jia)值的token。
为了加快十亿瓦级AI工厂建设和部署,英伟达专门打造了一个NVIDIA Omniverse DSX蓝图,提供了将AI工厂从1亿(yi)瓦扩展至(zhi)几十亿(yi)瓦的通用架构。
该蓝图(tu)通(tong)过可模(mo)拟、优化并用于运营的单一数字孪生(sheng)环境,搭配使用各种预制(zhi)模(mo)块,快速设计(ji)、组装、验证和扩展AI工厂,最大(da)限度地提(ti)高整个计(ji)算架(jia)构的GPU生(sheng)产力(li)和能效。
DSX有三大支柱:
- DSX Flex,动态电网协作,实现可再生能源发电和自适应电网平衡;
- DSX Boost,每瓦性能优化,最大化每兆瓦的token吞吐量;
- DSX Exchange,统一IT/OT集成,统一数字孪生、设施系统和操作。
这(zhei)是首次将建筑(zhu)、电(dian)力和冷(leng)却系统与英伟达的(de)AI基础设施堆栈进行协同设计。
它始于Omniverse数字(zi)孪生。工程和建(jian)(jian)筑(zhu)(zhu)合作伙伴(ban)Jacob的工程团队可以设计(ji)(ji)建(jian)(jian)筑(zhu)(zhu)物,优化计(ji)(ji)算(suan)密度和布局,根据功率限制实现最大化token吞吐量。
Jacobs工(gong)程师(shi)将从西门子、施耐德电气、Trane、Vertiv等合作(zuo)伙伴(ban)的(de)电力、电气和冷却(que)设备的(de)SimReady OpenUSD资产整(zheng)合到PTC的(de)产品(pin)生命周期管理系(xi)统中,使跨(kua)职能(neng)团队(dui)能(neng)够实(shi)时协作(zuo)制作(zuo)逼真的(de)3D模型(xing),通过(guo)共(gong)享的(de)、版(ban)本控(kong)制的(de)产品(pin)数据加速设计决策(ce),并降低开发风(feng)险。
然后(hou),使用来自(zi)EAB和Cadence的CUDA加速工(gong)具模拟(ni)热力和电气系统。
虚(xu)拟设计完成后(hou),英(ying)伟(wei)达合作伙(huo)伴会提供(gong)工厂制(zhi)造、测试并可(ke)随时插入的预制(zhi)模块,大大缩短构建时间(jian),加快(kuai)创收。
一(yi)旦实体(ti)AI工厂(chang)上线,数字孪生(sheng)就可以(yi)用作一(yi)个操作系统,来监控、检查(cha)和进一(yi)步优化流程。
工程师(shi)可以向已在数字孪生环(huan)境(jing)中训练过的AI智能(neng)(neng)体(ti)发(fa)出(chu)指令,能(neng)(neng)够优化功耗,减轻(qing)AI工厂和电(dian)网的负担。
总体而言,对于一个千兆瓦级AI工厂,DSX优化方案每年可在得克萨斯州、佐治亚州和内华达州等地带来数十亿美元的额外收入。
该(gai)蓝图(tu)已在英(ying)伟达位于美国(guo)弗吉尼亚州马纳萨斯Digital Realty工厂的(de)新AI工厂研(yan)究中心得到(dao)验证,利用DSX对Vera Rubin从基(ji)础设(she)施(shi)到(dao)软件进行(xing)测试和产品化。
“在(zai)(zai)Vera Rubin还(hai)未(wei)成为实体(ti)计(ji)算机(ji)之前,我们早就(jiu)将其(qi)作为数字孪生(sheng)计(ji)算机(ji)来使用了。”黄仁勋说,在(zai)(zai)这(zhei)些AI工(gong)厂还(hai)未(wei)建成之前,英伟(wei)达就(jiu)会对其(qi)进行设计(ji)、规划、优化,并以(yi)数字孪生(sheng)的形式进行运营。
七、Blackwell已在美国实现全面量产,美国能源部官宣7台AI超算
黄(huang)仁(ren)勋宣布,英伟达Blackwell芯片已在美(mei)国亚利(li)桑那州(zhou)(zhou)实现(xian)全面量产,从亚利(li)桑那州(zhou)(zhou)和(he)(he)印第(di)安纳州(zhou)(zhou)的(de)(de)硅晶圆,到得克萨斯州(zhou)(zhou)的(de)(de)整(zheng)机系统(tong),未(wei)来的(de)(de)英伟达AI工(gong)厂(chang)将全部在美(mei)国本土(tu)制造,为美(mei)国历史(shi)和(he)(he)工(gong)业书写新的(de)(de)篇(pian)章。
“AI时代(dai),正推动美国(guo)回(hui)归制(zhi)造业(ye),重启再工(gong)业(ye)化进程。AI时代(dai)已经来临,这些产品:美国(guo)制(zhi)造,服务全(quan)球。”黄仁勋说(shuo)。
美国能源部与英伟达合作,共同建设7台全新的AI超级计算机,以(yi)推(tui)动(dong)美国科学(xue)事(shi)业(ye)的发展。
英伟达与甲骨文、美国能源部合作打造的美国能源部最大AI超级计算机Solstice将配备创纪录的10万块英伟达Blackwell GPU。
另一个系统Equinox将包含1万块Blackwell GPU,预计将于2026年投入(ru)使用。
这两个系统都将位于阿贡国家实验室,并通过英伟达网络互连,并提供总计2200EFLOPS的AI性能。
英伟达还推出适用于政府的AI工厂参考设计,旨在帮(bang)助构建(jian)和部(bu)署新的AI平台和智(zhi)能体。
八、大举开源,推出全新语言、机器人、生物、电信开源技术
在(zai)黄(huang)仁勋看来,开源(yuan)非常重要,美国(guo)也必须(xu)在(zai)开源(yuan)领(ling)域(yu)占据领(ling)先地位。
英伟(wei)达致力于推动开源模(mo)型(xing)的发展(zhan),在开源领(ling)域贡献巨大,有23个模(mo)型(xing)登上顶级排(pai)行榜(bang),涵盖多(duo)个不同领(ling)域。
黄仁勋说,英伟达拥有排(pai)名第一的(de)语音模(mo)型(xing)、排(pai)名第一的(de)推理(li)模(mo)型(xing)、排(pai)名第一的(de)物理(li)AI模(mo)型(xing),模(mo)型(xing)的(de)下载量(liang)也非常可观(guan)。
英伟达将其模型、数据和(he)训练框架贡(gong)献(xian)给(ji)Hugging Face,已提供超过650个开源(yuan)模型和(he)250个开源(yuan)数据集。
其(qi)开源模(mo)型包(bao)括用于数(shu)字AI的NVIDIA Nemotron、用于物(wu)理AI的Cosmos、用于机器人(ren)的Isaac GR00T和用于生物(wu)医学AI的Clara等。
英伟达进一步坚定了对开源的承诺,推出用于语言、机器人、生物医学、电信的全新开源AI技术。
1、语言模型
NVIDIA Nemotron系列中最(zui)新开源模型整合了查看、检索、生成、推理等功(gong)能(neng),使开发者能(neng)够构建专业化(hua)的智能(neng)体。
- Nemotron Nano 3采用混合专家架构来提高软件开发、客户服务和IT支持等领域的推理吞吐量。
- Nemotron Nano 2 VL提供文档智能、图像推理和视频分析。
- Nemotron Parse从文档中提取文本和表格以获取可操作的见解。
- Nemotron Safety Guard增加了文化感知的多语言审核功能,可以检测9种语言的23个安全类别中的有害内容。
- Nemotron RAG模型具有高级文档提取和跨文本、图像、音频和视频数据源的统一检索功能。
英伟达还发布了新的开源Nemotron数据集,涵盖多模态训练、多语言(yan)角色和隐(yin)私保护(hu)的合成个人信息,用于专业模型开发。
此外,全新NVIDIA NeMo工具,包括用于合成数据生成的NeMo Data Designer和用于高级后训练和强化学习的NeMo-RL ,使开发人员(yuan)能够更好地控制模型定制。
2、世界基础模型和机器人模型
为(wei)了加速具有类(lei)似人(ren)类(lei)推理(li)和认知的(de)机(ji)器人(ren)系统的(de)训(xun)练,英伟(wei)达对其物理(li)AI开源模型(xing)进行了更新,包括Cosmos世界基础(chu)(chu)模型(xing)和Isaac GR00T机(ji)器人(ren)基础(chu)(chu)模型(xing):
- Cosmos Predict 2.5:将3个模型统一为1个,实现快速世界模拟,从单帧生成30秒的视频。
- Cosmos Transfer 2.5:以Cosmos Transfer 1/3的大小从3D场景生成更高质量、更逼真的数据。
- Cosmos Reason:一种推理视觉语言模型,现可作为NVIDIA NIM微服务使用,用于高级多模态理解。
- Cosmos 数据集搜索:能够即时检索训练场景,将训练后周期从数月缩短至数天。
- Isaac GR00T N1.6:增强人形机器人的推理、泛化和全身控制能力。
英伟达还发布了全球最大的物理AI开源数据集,目前包含来自美国和欧洲(zhou)各地(di)的1700小时(shi)多模(mo)式(shi)驾驶传感器数据以及GR00T训练数据。
该数(shu)据集已跻身有史以(yi)来下(xia)载次数(shu)最多的10个(ge)Hugging Face数(shu)据集之列。
Agility Robotics、Amazon Robotics、Figure AI、Skild AI、Milestone Systems、Uber等(deng)公司都在采用Cosmos或(huo) Isaac GR00T N模型来生成合(he)成数据、教会机(ji)器人(ren)新行为(wei)并大(da)规模部署现实世界和(he)物理AI智(zhi)能体。
3、生物医学模型
NVIDIA Clara是一系列旨在加速科学(xue)发现、分析医学(xue)图像等的模(mo)型、工具和配方,新加入的开源模(mo)型包括:
- Clara CodonFM:学习RNA的规则,揭示其代码的变化如何改善疗法和药物的设计。
- Clara La-Proteina:逐个原子地创建3D蛋白质结构,其长度和复杂程度是以前模型的两倍,从而能够设计更好的药物、酶和材料。
- Clara Reason:一种视觉语言模型,支持放射学和医学成像的思路链推理,以推进可解释的AI医学研究。
部分NVIDIA Nemotron和(he)Cosmos开放模型已在NVIDIA DGX Cloud上训练,现已在build.nvidia.com、Hugging Face、OpenRouter、微软Azure AI Foundry上提供,并(bing)将很快(kuai)登陆Google Vertex AI Platform和(he)其他云服务提供商。
NVIDIA Clara和Isaac GR00T已在Hugging Face上提供。
这些模(mo)型可(ke)作(zuo)为NVIDIA NIM微服务使用,以(yi)便在(zai)DGX Cloud或任何英伟达加速基础设(she)施(shi)上(shang)进行安全(quan)、可(ke)扩展的部(bu)署(shu),以(yi)实现最大程度的隐私和控(kong)制(zhi)。
4、电信Aerial软件
在电信行业,英伟达正在开源Aerial软件,并在(zai)英伟达(da)最小AI超算DGX Spark平台(tai)上推出NVIDIA Sionna研究套件和Aerial测试(shi)平台(tai),以(yi)加速AI原生5G和6G发展。
其此前(qian)开(kai)源的NVIDIA Sionna软件下载量已超(chao)(chao)过20万次(ci),引用次(ci)数超(chao)(chao)过500次(ci)。
英伟达开源(yuan)Aerial软件包括Aerial CUDA-Accelerated RAN、Aerial Omniverse Digital Twin (AODT)和全新的Aerial Framework。
这(zhei)些资(zi)源(yuan)(此前仅限于(yu)少(shao)数(shu)人使(shi)用)预计将于(yu)今年12月(yue)(yue)在GitHub上以Apache 2.0许可开(kai)放,AODT将于(yu)2026年3月(yue)(yue)发布(bu)。
九、向诺基亚投资10亿美元,发6G电信计算平台
黄仁(ren)勋说,电(dian)信是至关重要的国家基础(chu)设施,是经济和安(an)全(quan)的数字神(shen)经系统,基于英伟达CUDA和AI的AI-RAN将彻底(di)改变电(dian)信行(xing)业(ye)。
英伟达与诺基亚今日宣布建立战略合作伙伴关系,加速下一代AI原生(sheng)移动网络和AI网络基础(chu)设施的开发和部(bu)署。
英伟达还将以每股6.01美元的认购价向诺基亚投资10亿美元。
诺基亚和英(ying)伟达(da)也将在(zai)AI网络解决方案方面(mian)展开(kai)合作,并探索将诺基亚的(de)光学技术(shu)和功(gong)能用(yong)作未来英(ying)伟达(da)AI基础设施架构的(de)一部分。
同时,黄仁勋宣布推出英伟达的全新产品线——NVIDIA Aerial ARC。
NVIDIA Aerial ARC全称为NVIDIA Arc Aerial RAN Computer,是一款支持6G的电信计(ji)算平台。
该平(ping)台结合了连接、计算(suan)和传感功能(neng),使电信公司能(neng)通过(guo)(guo)软件升级从5G-Advanced过(guo)(guo)渡到(dao)6G。
Aerial ARC基于(yu)三项核心(xin)技(ji)术(shu)构建而成:Grace CPU、Blackwell GPU,以及专为这一应用设计的ConnectX/Mellanox网络(luo)技(ji)术(shu)。
这(zhei)些(xie)技术结合在(zai)一起(qi),能够运行英伟达CUDA X库(ku)中的Aerial无线通(tong)信库(ku)。
NVIDIA ARC-Pro参(can)考设计可(ke)供(gong)制造商和网络设备(bei)提供(gong)商构(gou)建基于商用(yong)现货或专有的(de)AI-RAN产品,支持新建和现有基站的(de)扩展。
黄仁(ren)勋分(fen)享道,英伟达将(jiang)首次打造出一个软(ruan)件定(ding)义、可(ke)编程的计算机,它既能进行无(wu)线(xian)通信(xin),又(you)能同时进行AI处理,即NVIDIA Aerial。
诺(nuo)基亚将与之合作,把(ba)NVIDIA Aerial作为未来基站(zhan)的核心技(ji)术。NVIDIA Aerial还兼(jian)容(rong)诺(nuo)基亚现有的Airscale基站(zhan)。
据分析机(ji)构Omdia预测(ce),到2030年(nian),AI-RAN市场规模预计将(jiang)累计超过2000亿(yi)美元(yuan)。
ChatGPT每(mei)周(zhou)8亿(yi)活跃用户中,近50%通过(guo)移动设备访问该(gai)网站,其每(mei)月移动应用下载量超过(guo)4000万次。
而AI-RAN系(xi)统(tong)有助于(yu)支持(chi)移动AI流量的(de)爆炸式增长(zhang),改善(shan)消(xiao)费者体验(yan)。
它还(hai)将支持(chi)未来的AI原(yuan)生设(she)备,例如无人机(ji)或AR/VR眼镜,并为集成传感和通信等6G应用(yong)做好准备。
接下来,英伟达将实(shi)现两个重要的AI-RAN功能:
- 一是“AI for RAN”,即通过AI提升无线频谱的使用效率;
- 二是“AI on RAN”,本质上是将云计算带到无线通信的边缘,由于全球各地都有基站,因此云计算可以直接部署到边缘,而不必依赖传统的大型数据中心。
诺基(ji)亚将通(tong)过基(ji)于(yu)英伟达平台(tai)的全新AI-RAN产品(pin)扩(kuo)展(zhan)其全球产品(pin)组合。戴尔科技提供PowerEdge服务器来支持新的AI-RAN解决方案。
英伟达还与Booz Allen、Cisco、MITRE、ODC、T-Mobile等合作伙伴合作,宣布推出美国首个适用于6G的AI原生无线堆栈,其(qi)中(zhong)包括推(tui)进下(xia)一代无线技(ji)术的(de)新应用程序。
十、NVQLink:将GPU与QPU高速互连,满足量子纠错高速率需求
构建量子计算机的(de)(de)方式多种多样,但(dan)无论采用(yong)哪种方法,所有的(de)(de)量子比特都面临同(tong)一个挑战:它们非(fei)常脆弱,对噪(zao)声(sheng)极度(du)敏(min)感,精(jing)密且容易出错。
目前的(de)量子比(bi)特通常只(zhi)能稳定(ding)运(yun)行(xing)几(ji)百次(ci)操作(zuo)(zuo),但要解决真正有(you)意义(yi)的(de)问题,则(ze)需要进(jin)行(xing)数(shu)万(wan)亿次(ci)操作(zuo)(zuo)。
解决方案就是量子纠错。
测(ce)量(liang)(liang)会干扰量(liang)(liang)子比特(te),破(po)坏其中的信息。关(guan)键(jian)在(zai)于添加额外的量(liang)(liang)子比特(te),并让它们相互纠缠,这样(yang)通过测(ce)量(liang)(liang)这些额外的量(liang)(liang)子比特(te),就能获得(de)足够的信息来(lai)判断错误发(fa)生在(zai)哪里(li),而又不会破(po)坏我们真正关(guan)心的那些量(liang)(liang)子比特(te)的状态。
这个思路非常巧妙,但它对传统计算能力提出了远超当前水平的要求。
量子(zi)比特非常需要复杂的(de)(de)校准(zhun)、量子(zi)误差校正和其他控(kong)制(zhi)算(suan)法才(cai)能(neng)(neng)正常运行。这些算(suan)法必须通过与传统(tong)超(chao)级计算(suan)机极其苛刻的(de)(de)低延(yan)迟、高(gao)吞吐量连(lian)接(jie)运行,才(cai)能(neng)(neng)控(kong)制(zhi)量子(zi)比特误差并实现(xian)具有影响力的(de)(de)量子(zi)应用(yong)。
对此,英伟达开发了一种NVLink量子互连架构——NVIDIA NVQLink,用于将GPU计算的高性能与量子(zi)处理器(QPU)紧(jin)密结合,以(yi)构(gou)建(jian)加(jia)速量子(zi)超级计算机。
它能够直接将QPU与英伟达GPU连接起来。量子纠错需要从量子比特中读取信息,计算错误发生的位置,并将修正数据传回。而NVQLink每秒能够进行数千次这样的操作,实现量子硬件与计算系统之间数TB级数据的快速交换,满足量(liang)子(zi)纠错所需的极高速率。
“NVQLink就像连(lian)接量子和传统(tong)超级(ji)计算(suan)机的罗塞塔石碑,将它们整合成一个统(tong)一、连(lian)贯的系(xi)统(tong),标志着(zhe)量子GPU计算(suan)时代(dai)的到来。”黄仁勋说。
NVQLink将量子处理器和控制硬(ying)件系统的多种方法直接连接到AI超级计算,提供(gong)统一的交钥匙解决方案,以(yi)克(ke)服量子研究人(ren)员在扩展硬(ying)件时面临的关键集成挑战(zhan)。
其实现基于两大关键能(neng)力:
首先(xian),这个互连架构能够实(shi)现(xian)对量子计算机的控制(zhi)与校准,实(shi)现(xian)量子纠错,同(tong)时连接QPU与英(ying)伟达GPU超级计算机,进行(xing)混合(he)模拟。
其次,它具(ju)有极(ji)强的(de)可扩展(zhan)性,不(bu)仅(jin)适用于(yu)当前仅(jin)有数百(bai)个量(liang)(liang)子比(bi)特的(de)规模(mo),还为未来做好准备——将把量(liang)(liang)子计算机的(de)规模(mo)从今(jin)天的(de)几(ji)(ji)百(bai)个量(liang)(liang)子比(bi)特,扩展(zhan)到几(ji)(ji)万个、几(ji)(ji)十万个,甚(shen)至更(geng)多。
因此,现有(you)了一个面向未来的架构(gou),它能(neng)够(gou)实现控制、协同模拟、量子纠错,并具备(bei)持(chi)续扩展的能(neng)力。
其核心是英伟达推出的开放平台——CUDA-Q,用于量子计算与GPU计算的协(xie)同。
CUDA最初是为(wei)GPU与(yu)CPU的协同(tong)加速计算而(er)设计的,其核心理(li)念是让不同(tong)的处理(li)器各(ge)司其职,用(yong)对(dui)的工具(ju)做(zuo)对(dui)的事(shi)。
现在,CUDA-Q已经超越了传统CPU-GPU的范畴,扩展至支持量子处理器(QPU),使得量子处理器与GPU之间能够在短短几微秒内完成数据交(jiao)互与(yu)计算迁移,满足与(yu)量子(zi)计算机协同工作的极低延迟要求。
借助NVQLink和CUDA-Q,研究人员不仅(jin)能实现(xian)纠错,还能协调量(liang)子设备(bei)与AI超级计算机,共(gong)同(tong)运行量(liang)子-GPU融合应用。
黄仁勋宣布,已有17家量(liang)子(zi)计算行业公司支持NVQLink技术。
在(zai)他(ta)看来,在(zai)不久的(de)将(jiang)来,每台英伟达GPU科学超级计算(suan)机都将(jiang)是混合型的(de),并(bing)与量(liang)子处理器紧密结(jie)合,以扩展计算(suan)的(de)可能性(xing)。
结语:锚定多个关键行业,为未来AI原生市场铺路
回顾整场演讲,信息密度极高,涉及到AI、6G、量子技术、各类模型、企业计算(suan)、机器人、汽(qi)车(che)、AI工厂(chang)等(deng)领域(yu)的发展脉(mai)络(luo)、行(xing)业痛点,以(yi)及英伟(wei)达最新给出(chu)的解(jie)题思路(lu)。
黄仁勋提到两场关键的平(ping)台(tai)转型(xing):一是从通用计(ji)算到加速计(ji)算,英伟达(da)的CUDA及其(qi)CUDA X库套件(jian)使其(qi)能够服务于几乎(hu)所有(you)行业;二是从传统的手工编写软件(jian)向(xiang)AI的转变。两大平(ping)台(tai)转型(xing)都在(zai)发生,带来巨(ju)大的增长。
同时,AI正在(zai)从数字(zi)世(shi)界(jie)走向物理世(shi)界(jie)。在(zai)工厂、车间、手(shou)术室等场景,机器正在(zai)进(jin)化成为能够(gou)实时观察、感知、决策(ce)的协作伙伴。
英(ying)伟达反复描绘,进(jin)入加(jia)速(su)计算(suan)时代,未来的每一台超级计算(suan)机(ji)都(dou)将(jiang)是基于GPU的超级计算(suan)机(ji)。
这家AI计算巨头正持续面向未来投资,紧跟AI发展(zhan)脚(jiao)步,为更(geng)广(guang)阔的AI原生市场(chang)铺(pu)路。