智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 心缘
智东西8月7日报道,昨晚,由微软OpenAI英伟达英特尔联手投资的明星机器人创企Figure,发布了新一代机器人Figure 02,再次颠覆我们对人形机器人的想象。
升级后的Figure 02不仅外形更像人,还在OpenAI多模态大模型的加持下,实现了与人类语音对话;拥有16个自由度的(de)第四代(dai)手部(bu)灵活度大幅提升,可以实现更精(jing)细的(de)操(cao)作,而特(te)斯拉(la)的(de)擎(qing)天(tian)柱二代(dai)手部(bu)自(zi)由度为11个(ge)。
与第一代相比,Figure 02从外观设计、软硬件性能,到内置AI模型都进行了彻底的升级,主要体现在以下方面:6个板载相机、电池容量增加50%以上、3倍推理速度、第四代手部、语音到语音交互、内置VLM(视觉语言模型)。

▲Figure 02
Figure成立于2022年,截至目前共完成5轮融资,总额8.54亿美元(约合人民币61.08亿元),估值达到26亿美元(约合人民币185.88亿元)。其投资方包括微软、OpenAI、英伟达、英特尔、贝索斯等(deng),涵(han)盖了时下(xia)生成式AI热(re)潮中的大模(mo)型、算力、投资公司等(deng)明(ming)星玩家,阵容十(shi)分亮眼。
今年2月,Figure宣布与OpenAI达成合作,将在OpenAI大(da)模型(xing)的(de)(de)支持下开发(fa)下一代(dai)人形(xing)机(ji)器(qi)人模型(xing),将其(qi)多模态模型(xing)扩展到(dao)机(ji)器(qi)人的(de)(de)感知、推理和交互中。Figure 02的(de)(de)语(yu)(yu)音到(dao)语(yu)(yu)音交互功能,便是(shi)其(qi)基(ji)于OpenAI为其(qi)定(ding)制大(da)模型(xing)的(de)(de)最新尝(chang)试。

▲Figure 02在(zai)工(gong)厂中(zhong)行(xing)走
Figure创始人兼CEO Brett Adcock称,Figure 02的续航可支持每天完成约20小时的有效工作,这有助于其进入劳动力市场和家庭。值得一提的是,Figure的初代机器人Figure 01已经在宝马工厂落地,在(zai)汽车(che)制造过程中“自动执行困难、不(bu)安全且(qie)乏味(wei)的(de)任务”。
从概念设计到落地,Figure 02仅用时18个月。Adcock还提到,团队将推动低成本、高效率地制造,预计明年开始批量生产。
一、推理能力提升3倍,每天可工作20小时
从外形上看,Figure 02比第一代酷炫了许多,布线不再裸露在外,看起来更加完整,外骨骼为其增添了(le)现(xian)代感和科技(ji)感。不(bu)得(de)不(bu)说,Figure 02现(xian)在看起来更像特斯(si)拉的擎(qing)天(tian)柱了(le)。

▲Figure 01(左)、Figure 02(中)和擎天柱二(er)代(右)外形(xing)对比
在(zai)Figure 01的基础上,Figure对机(ji)器人的软(ruan)硬(ying)件(jian)进行(xing)了彻(che)底的重新设计,覆盖AI、计算机(ji)视觉、电池、电子(zi)设备(bei)、传感器和执行(xing)器等关键技术。

▲Figure 02
Figure 02在6个方面取得突破,包括语音交互、摄像头、手部、VLM(视觉语言模型)、电池、CPU/GPU。
具体来看,Figure 02通过定制AI模型(xing)驱动的板载麦克风和扬声器,以语音到(dao)语音的方式直接(jie)与(yu)人类对话。
它的头部、前躯干和后躯干共有6个板载RGB摄像头,通过AI驱动的视觉系统感知和理解物理世界,并在内置VLM的支持下进行快(kuai)速常识性视觉推理。

▲Figure 02的6个摄(she)像头
Figure 02采用Figure自研的第四代手,其具备16个自由度,且(qie)力量与人(ren)类等同。

▲Figure 02手部
Figure 02内置的电池容量为2.25 KWh,相比上一代增加了50%以上,据称每天能够完成约20小时的有效工作,这为人形(xing)机器(qi)人进入劳动力市场和(he)家庭铺(pu)平(ping)了道(dao)路。

▲Figure 02在宝马工厂(chang)
模型推理方面,Figure 02板载的CPU/GPU提供比上一代高3倍的计算和推理能力,具备自我修正的学(xue)习能力。

▲Figure 02在宝(bao)马工厂
在外骨骼的加持下,Figure 02的重量相比上一代有所减轻,但由于增加了电池、摄像头、CPU/GPU等,净重量增加到约70kg。

▲Figure 02的外骨骼细节(jie)
二、历时18个月落地,预计明年开始量产
Figure创始人兼CEO Brett Adcock称,Figure 02在2023年2月完成概念设计,从概念到成品历时18个月。
Adcock解读(du)了(le)Figure 02在语音(yin)交互(hu)、布线(xian)等方面的技术(shu)原理(li)。Figure 02的语音(yin)交互(hu)能力是基于OpenAI为其定制的大模型实现的。

▲语音到语音推理
在接收到语(yu)音后(hou),模(mo)型首先将其(qi)转换为(wei)文字(zi),同时,板载(zai)的VLM(视觉语(yu)言模(mo)型)基于摄像头捕捉(zhuo)到的图像和语(yu)音理(li)(li)解进行(xing)常识推理(li)(li),然(ran)后(hou)基于推理(li)(li)控制机器人的行(xing)为(wei),同时将输(shu)出文本(ben)转换为(wei)语(yu)音输(shu)出。
在(zai)布(bu)线方面,Figure 02采用集(ji)成电(dian)源(yuan)和(he)计算(suan)布(bu)线,并设计了定制的(de)(de)电(dian)线端子和(he)连接器,从而隐藏电(dian)线,并实现(xian)更高的(de)(de)可靠(kao)性(xing)、更紧(jin)密(mi)的(de)(de)包(bao)装。
基(ji)于板载CPU和GPU,Figure 02能(neng)够(gou)运(yun)行最(zui)新的AI模型,其推理能(neng)力达(da)到Figure 01的3倍,能(neng)够(gou)完全自主执行现实世界中的任务(wu)。

▲Figure 02的CPU和GPU
对于Figure 02的进步,不少行业大佬和网友纷纷发来贺电。
英伟达高级研究经理兼具身智能实验室负责人Jim Fan称:“恭(gong)喜Brett!制作高自由度灵巧手(shou)的决(jue)定绝对是正确的。”

▲Jim Fan评论
有的(de)网(wang)友已经迫不及待地想看Figure 02和马斯克(ke)的(de)擎(qing)天柱大战2024了。

▲网友评论
有的网友(you)则迫切地(di)想购买(mai)一台(tai)帮自(zi)己洗碗。

▲网友评论
同时,也不乏有一些质疑的声音出现。有网友问道:“他是否具备(bei)超(chao)级(ji)工厂的制造能力?他真的能在垂直(zhi)整合方面(mian)做到精细到原子(zi)成本的程度吗?”
Adcock很坚定地回答:“是的。我将推动低成本、高效率制造,明年开始批量生产。”

▲Adcock回应(ying)成本问题
也(ye)有(you)网友对Figure 02所谓的(de)“世界上(shang)最先进的(de)AI硬件”产生质(zhi)疑,称(cheng)擎(qing)天(tian)柱在(zai)7个月以(yi)前就(jiu)已经做(zuo)到这些了(le)。

▲网友评论
有网友认(ren)为Figure 02的营销(xiao)大于(yu)其真(zhen)实进步:“这很酷(ku),但(dan)灵活性显然不(bu)(bu)足。你(ni)(ni)浪(lang)费(fei)了(le)(le)很多时间(jian)展示平(ping)移,而本可(ke)以(yi)给(ji)我(wo)展示更多手部操作(zuo)——这才是(shi)真(zhen)正的诀窍,不(bu)(bu)是(shi)吗?它把零件冲(chong)压到位了(le)(le)?这是(shi)进步,但(dan)不(bu)(bu)值(zhi)得你(ni)(ni)所营造(zao)的那(nei)种大肆宣传。”

▲网友评论
三、成立2年估值185亿,初代机器人已进宝马打工
Figure成立于(yu)2022年,其(qi)创始人Brett Adcock是一位连续(xu)创业(ye)者(zhe),其(qi)此前创立的两家公司分(fen)别实现IPO和以1亿美(mei)元被(bei)收(shou)购(gou)。
Figure致力于开发能(neng)够在仓储、零售(shou)、看(kan)护等不(bu)同环(huan)境中工作,并处理(li)各(ge)种任务的通用(yong)人(ren)形机器人(ren)。
截(jie)至目(mu)前,Figure共(gong)完成5轮融(rong)资(zi),融(rong)资(zi)总(zong)额达到8.54亿(yi)美(mei)元(yuan)(约合(he)人(ren)民(min)币(bi)61.08亿(yi)元(yuan)),估值26亿(yi)美(mei)元(yuan)(约合(he)人(ren)民(min)币(bi)185.88亿(yi)元(yuan))。

▲Figure融资历(li)程(cheng)
去(qu)年10月,Figure发布第一款通用(yong)人(ren)形机器人(ren)Figure 01行走的视频,此(ci)时团(tuan)队(dui)刚刚成立一年多,拥有60名工程(cheng)师。

▲Figure 01行(xing)走(zou)
今年1月7日,Figure发(fa)布了一则Figure 01煮(zhu)咖啡的视(shi)频(pin),并强调其使用端到端的AI系统,仅通过观(guan)察人(ren)类煮(zhu)咖啡,即可(ke)在(zai)10小(xiao)时内(nei)完成训练。

▲Figure 01煮咖(ka)啡
1月18日(ri),Figure宣布与宝马签署商业协议(yi),机器人Figure 01将(jiang)进(jin)入宝马工厂,在汽车制(zhi)造过(guo)程中(zhong)“自动执行困难、不安全且乏味的任(ren)务”。
2月,Figure获得6.75亿美元高额融资,一举跃升独角兽,投资方包括微软、OpenAI、英(ying)伟达、英(ying)特尔、贝索斯等,涵盖了时(shi)下生成式AI热潮中的大模(mo)型、算(suan)力、投资公(gong)司等明星玩家,阵容(rong)十分亮(liang)眼。

▲Figure官(guan)宣融(rong)资
同时,Figure宣(xuan)布(bu)与(yu)OpenAI、微(wei)软达成合作,将与(yu)OpenAI合作开(kai)发下一代(dai)人形机器人模型(xing),将其多模态模型(xing)扩展到机器人的感(gan)知、推理和交互中,并利(li)用微(wei)软云(yun)进(jin)行AI基础设施构(gou)建、训练。
半个月(yue)(yue)后(hou),Figure于3月(yue)(yue)13日发布了(le)Figure 01在(zai)OpenAI大模(mo)型加(jia)持后(hou)的进展。
在2分半(ban)的视(shi)频(pin)中(zhong),Figure 01展示了如何描述自(zi)(zi)己(ji)眼前(qian)看(kan)到了什(shen)么,判断自(zi)(zi)己(ji)眼前(qian)看(kan)到的东西相(xiang)互之间(jian)有什(shen)么关联,给饥饿的测试员找到桌(zhuo)子上唯一能吃的苹果(guo)并(bing)(bing)精准(zhun)递过去,进行(xing)“回忆”并(bing)(bing)对自(zi)(zi)己(ji)做(zuo)过的事(shi)情(qing)给出评(ping)价,用简单(dan)易懂(dong)的话语口(kou)头解释(shi)自(zi)(zi)己(ji)做(zuo)事(shi)的缘由等(deng)高难度动(dong)作。
7月,Figure发布了一段视频,展(zhan)示其(qi)机器人在(zai)宝马工厂训练的(de)最新成(cheng)果,其(qi)已经可以在(zai)生产(chan)车间上从(cong)事简单的(de)抓取(qu)工作。
不(bu)得(de)不(bu)说,仅看Figure 02此次(ci)发布的演示(shi)视频(pin),我们并不(bu)能十分明(ming)确地感(gan)知到它相对(dui)于(yu)上一代(dai)实现的突破,也(ye)难怪(guai)不(bu)少网友感(gan)到失望(wang)。
结语:人形机器人赛道再添一把火
今(jin)年年初,人形机器人一度迎来爆发(fa)式开局(ju)。从斯坦福(fu)机器人大秀(xiu)厨(chu)艺做大餐,到(dao)特斯拉擎天柱化身保姆叠(die)衣服,再到(dao)两家创企的机器人比赛煮咖啡。除(chu)了Figure之外,另一家机器人企业1X也(ye)获得OpenAI等(deng)知名投(tou)资(zi)者的巨额投(tou)资(zi)支持。
半年多过去,人形(xing)机器(qi)人的(de)热度有所退却,不过Figure 02的(de)发布(bu)又为这个赛(sai)道添了一把火。Figure 02在软硬件诸多方面展现出了显著的(de)升级与突破(po),但(dan)由于演示视(shi)频的(de)局限(xian)性,也面临着网(wang)友的(de)质疑与期(qi)待(dai)。
科技的(de)(de)进步从来(lai)不(bu)是(shi)一蹴而就,每一次的(de)(de)创新(xin)都伴随着(zhe)挑战与争议。后续Figure能(neng)否(fou)不(bu)断优化Figure 02,交(jiao)出更(geng)亮眼的(de)(de)答卷,特斯拉擎天柱等(deng)同类产品又能(neng)否(fou)实现(xian)新(xin)的(de)(de)突破,我们将持续关注。