智东西AI前瞻(公众号:zhidxcomAI)
作者 | 江宇
编辑 | 漠影
智东西AI前瞻(zhan)7月28日报道,今(jin)日,在2025世(shi)界人(ren)工智能大(da)会(WAIC)期间,启明创投主管合伙(huo)人(ren)周志峰发(fa)表(biao)主题演讲《技术向(xiang)上生长(zhang),应(ying)用向(xiang)下扎根——AI共振(zhen)周期暨(ji)2025 AI十大(da)展望(wang)发(fa)布》,发(fa)布了“AI十大(da)展望(wang)”。
该报告覆盖了从基础模型、多模态智能体、AI基础设施到新型交互与机器人应用等多个方向,系(xi)统梳理了未来(lai)12至(zhi)24个月内(nei)值得关(guan)注的(de)关(guan)键技术与落地趋(qu)势,构成了一(yi)份(fen)面向下一(yi)个AI周期的(de)重(zhong)要(yao)趋(qu)势图谱(pu)。
在这份年度报告中,启明创投将未来一到两年的发展趋势概括为“能力突破”与“应用深化”两个方面。
启明创(chuang)投(tou)判断,未来(lai)12到24个(ge)月,大模型(xing)(xing)领域或将(jiang)迎来(lai)一次决定性跃(yue)迁(qian):基础(chu)模型(xing)(xing)上下文(wen)窗口或拓展(zhan)至200万(wan)Token,通(tong)用(yong)视(shi)频(pin)模型(xing)(xing)有望实现(xian)生成(cheng)、推理、理解(jie)一体(ti)化,彻底改(gai)变内容(rong)创(chuang)作与人机交互方式。
如果这些能力得以兑现,其直接产物将是“数字员工”的真正诞生——Agent不再只是工具,而将深入企业内部流程去交付结果;多模态智能体也将在高复(fu)杂场景中完成推理与执行(xing)。
同时,国产AI芯片将迎来“国设”+“国造”的大规模交付,AI原生硬件或将在部分场景从手机上转移出用户的部分需求,具身智能产品如(ru)通用机器人(ren)也有望(wang)率先(xian)在制造业和物流业的拣选(xuan)、搬运和组装等(deng)场景实现商业部署(shu)。

以下是周志峰演讲实录(智东西(xi)在不影响原意的前提下进行(xing)了(le)处理):
一、AI投资热度不减,技术与应用进入“共振”周期
一(yi)(yi)年一(yi)(yi)度,一(yi)(yi)期一(yi)(yi)会(hui)。首先特别开(kai)心,又能在WAIC启明创投的(de)创业与(yu)投资论(lun)坛上,跟(gen)各位新老(lao)朋友,无论(lun)是(shi)(shi)线下参加(jia)还是(shi)(shi)线上看直播的(de),再次聚在一(yi)(yi)起(qi)。熟悉(xi)我(wo)们论(lun)坛的(de)人都(dou)知道,每年都(dou)是(shi)(shi)我(wo)来开(kai)始(shi)这(zhei)个“序曲”,引出(chu)后续的(de)演(yan)讲(jiang)与(yu)讨(tao)论(lun)。
今年我(wo)的(de)题目叫“技术向(xiang)上生长,应(ying)用(yong)向(xiang)下扎根(gen)”。为(wei)什么起(qi)这个(ge)名字?我(wo)记(ji)得2023年我(wo)们第一(yi)次论(lun)坛的(de)时候,我(wo)跟大(da)(da)家分享过我(wo)的(de)感受(shou)(shou):做AI投资(zi)人(ren)最大(da)(da)的(de)感受(shou)(shou)就是(shi)“累”。
当时美(mei)国大模(mo)(mo)型(xing)公司密集发布新(xin)模(mo)(mo)型(xing),我经常凌晨三(san)四(si)点起床,为了抢(qiang)那些公司发布会之后有限的邀请码,赶紧去试试最新(xin)的大模(mo)(mo)型(xing)技(ji)术。
去年我说,AI越来越热闹,但在任何一个“大浪潮”热闹的时候,噪音特别多。作为一个(ge)投资人(ren),如何“让自己(ji)(ji)安静下来”?你真正能够有自己(ji)(ji)的独立(li)判断、有自己(ji)(ji)的思考去进(jin)行布局,是一件特(te)别不(bu)容(rong)易的事。
而今年,我觉得AI产业又到了一个新的阶段:一方面,技术还在往上快速增长,没有明显的天花板;另(ling)一方面(mian),技术在性能、成本(ben)方面(mian)变得“可用”,我们也(ye)看到(dao)“大(da)规模(mo)的(de)应用已经开(kai)始落地”,就像“树根一样”深深扎根、扎实生(sheng)长,在创(chuang)造巨大(da)的(de)价值。
所以今年AI处在一个很特别的“周(zhou)期(qi)”——“AI技(ji)术与(yu)应(ying)用的共振周(zhou)期(qi)”。启(qi)明创投(tou)在整个AI产业链上有很多(duo)布局,我们投(tou)了(le)很多(duo)中国AI领域的企业。
但我们的(de)(de)信息(xi)和观点,并不(bu)是“闭门(men)造车”自(zi)己想出来(lai)的(de)(de),而(er)是整合(he)了来(lai)自(zi)产业界“一手信息(xi)”的(de)(de)成果,这(zhei)也是我今天十(shi)分(fen)钟分(fen)享的(de)(de)基(ji)础。从(cong)投资人角度讲,我依然(ran)愿意“累”,因为这(zhei)是最热门(men)的(de)(de)赛道。
大家可以看看,2025年AI占了全球50%以上的投资份额。一个领(ling)域占全球一半的投资(zi),这说(shuo)明(ming):即使AI大(da)模型已(yi)经成长了两三年,大(da)家仍然(ran)认为“它的潜力依然(ran)巨(ju)大(da)”。越来越多投资(zi)人,用“真(zhen)金(jin)白银去投票”,持续(xu)投入(ru)到(dao)AI中。
这半年甚至一年,很多人在问:“是不是预训练这条路快走到头了,大模型的天花板差不多了?Scaling Law是不是不灵了?”但从资本的“投票”来看,不是这样的。2024年,模型公司拿到了330亿美元,占全年全球风险投资的近20%。
二、大模型关键能力跃迁,推理与多模态成技术主线
这也说明,大模型依然在高速发展。过去12个月,大模型有了很多新突破,比如MOE架构、合成数据、更长的上下文窗口等等。如果让我总结一两个最关键的技术进展,第一个一定是推理能力。
以(yi)前的大(da)模型是(shi)靠几万亿个token做预训练,压缩信息。当(dang)你提问(wen)时,它只(zhi)是(shi)把“信息转(zhuan)移(yi)”给我们人类(lei)用户。而现(xian)在,有了推理能(neng)力之后,它能(neng)做更深入的逻辑思维,“向前推理,向后反(fan)思”,具(ju)备(bei)了非常(chang)复杂的一些能(neng)力。效(xiao)果非常(chang)明(ming)显。
去年(nian)这个时候,我们在讲GPT-4o,当时,它是(shi)最强的(de)模型。但如果用(yong)(yong)人类智商测试(shi)标准(zhun),它的(de)成绩不(bu)(bu)到70分。还记得《阿甘正(zheng)传》里的(de)主(zhu)角Forest Gump吗?他的(de)智商是(shi)75,是(shi)一位(wei)“轻(qing)度的(de)智障者(zhe)”。所以(yi)当时的(de)大模型,也只(zhi)是(shi)“人类的(de)轻(qing)度智障者(zhe)”水(shui)平,只(zhi)能做(zuo)一些(xie)简单的(de)应用(yong)(yong),做(zuo)不(bu)(bu)了复杂任务(wu)。
但现在,最新的推理模型,比如上周五发布的“阶跃星辰Step-3”模型,智商已达到120左右。这意味着什么?全球80亿人,有87%的人的智商在90-120分之间。也就是说,大模型已经超越了80%以上人类的智商水平。这是非常(chang)重大的进展。
另一个关键是“多模(mo)(mo)态”。过去,我们说“大(da)语言模(mo)(mo)型”,但语言只(zhi)是人感知(zhi)和交互(hu)的一个维度。如果能融入(ru)语音(yin)、图(tu)像、视频,甚至未来的物联网多维信息,那模(mo)(mo)型对世(shi)界的感知(zhi)与交互(hu)就会变得(de)更加丰富多彩。
除了语言(yan)主导(dao)的(de)(de)模型外(wai),图像和视频生成模型的(de)(de)进(jin)展也很大。今年5月(yue),谷歌发布的(de)(de)“Veo 3”,已经能生成非常真(zhen)实的(de)(de)视频,还能自动(dong)加音效(xiao)、对白、背景噪(zao)音,让(rang)你感(gan)觉“就像是(shi)一个真(zhen)实世界的(de)(de)视频记录(lu)”。
我们投资的(de)(de)生数科技(ji),此前也发布了新(xin)一代视(shi)(shi)频(pin)模型。它可以支持输入(ru)“最多七个(ge)主体”(人、动物(wu)、汽车等)的(de)(de)参考图片,且在生成的(de)(de)视(shi)(shi)频(pin)中保持这些主体的(de)(de)“高度一致性”。
三、Agent进化走向“七月定律”,AI产品应用迈向全球
再来说说Agent。这是从今年3月开始最火的话题。Agent爆火,其实是因为基础模型能力提升了:上下文窗口更大、能使用外部工具,核心还是“推理能力”的增强。现在甚至出现了“智能体的摩尔定律”——任务处理复杂度每七个月翻一倍。我们可以期(qi)待(dai)Agent再经历一(yi)、两个“七个月周期(qi)”后,会达到什么样的(de)智能水平。
今年1月,DeepSeek V3/R1模型发布,震惊全球。它在“推理成本”上做得非常好,仅为OpenAI对应模型的5%。此后,全球大模型团队都在压低成本。谷歌比DeepSeek还降了不少,阶跃星辰最新模型的推理成本又比DeepSeek更低。现在主流的大模型,即使没有做蒸馏,完整尺寸大模型的推理成本也已经降到每百万Token约1美元,比去年下降了近100倍。
讲(jiang)完技术(shu),我们再看应用(yong)(yong)层。大家熟悉的ChatGPT这(zhei)(zhei)个产品(pin),是(shi)(shi)这(zhei)(zhei)波AI浪潮的点火器。2023年7月,我们第一次在WAIC召开论坛时(shi),ChatGPT周活(huo)用(yong)(yong)户(hu)不到1亿(yi);到2024年举办(ban)论坛时(shi)是(shi)(shi)2亿(yi);而现在已经“差不多八、九亿(yi)周活(huo)用(yong)(yong)户(hu)”了。AI应用(yong)(yong)发展速(su)度非常快。
哈佛商业评论最近也总结了一个趋势——AI产品从辅助创意走向深层互动。过去我们用AI在做图、写文案时产生创意,参考它的idea。但现在,疗愈陪伴产品(pin)成了最(zui)常用的应用,真正帮助用户寻找情绪出(chu)口,成为一个数字化的陪伴者。
Token调用量也反映了应用热度,比如豆包,12个月内调用量增长了超过100多倍。
硬(ying)件方(fang)面也有进(jin)展(zhan)。我们投的“未来智能”推出的翻译(yi)耳(er)机(ji),用户已突破100万。Plaud AI这个(ge)华人团(tuan)队主攻(gong)北美(mei)市场,也刚刚突破百万用户。
人形机器人在(zai)中(zhong)国开(kai)始(shi)率先(xian)落(luo)地。比如两周(zhou)前(qian),优必(bi)选刚签了全(quan)球最大(da)的人形机器人订单;智元(yuan)与宇树(shu)也中(zhong)标(biao)了真实落(luo)地场景。
还有一个趋势是“全球化”。过去互联网公司是“本地称王,再拓海外”;但现在,AI产品“生而全球”。比如快手的可灵AI,网页端80%流量来自海外。生(sheng)数科(ke)技的视频生(sheng)成平台Vidu AI,上线3个月用户超1000万(wan),其中80%以上也来自海(hai)外。
四、十大预测:基础突破、应用转向与硬件新形态
我(wo)们(men)(men)(men)每次(ci)分享的最(zui)后,也是最(zui)重要的环(huan)节,我(wo)们(men)(men)(men)再次(ci)挑(tiao)战一下(xia)自(zi)己(ji),跟(gen)大家聊聊我(wo)们(men)(men)(men)对(dui)接(jie)下(xia)来12个月到18个月的十大展(zhan)望。
1、基础模型上下文窗口突破
今年的展望,第一个是关于基础模型。我们认为基础模型会有很多创新,但有一点,就是12个月内,中国和美国的头部基础模型就会达到一个200万Token的上下文窗口。从(cong)供给端看(kan),注(zhu)意力机制等架构的(de)(de)创新正在推动长(zhang)文(wen)本能力迅速(su)突(tu)破;而从(cong)需求(qiu)端看(kan),只有上(shang)下文(wen)窗(chuang)口更长(zhang),才(cai)能生成出真(zhen)正有细节、有连(lian)贯(guan)性(xing)的(de)(de)、贴合语(yu)境(jing)的(de)(de)高质量内容。

2、通用视频模型进入实用期
第二个是(shi)关于多(duo)模态模型。其实不光是(shi)我们(men)(men)启明自(zi)己的判断,我们(men)(men)也结合了很多(duo)企业(ye)家、科学家、创(chuang)新者的智慧。
在这个领域,我们判断未来一到两年之内,会出现真正的通用视频模型,可以处理(li)在视频模态下的多种任务(wu),包括生成(cheng)、推理(li)和任务(wu)理(li)解,促(cu)进“内容生成(cheng)”以及“交互方式”的革新。

3、Agent迈入“数字员工”时代
那下一(yi)个(ge)是(shi)关于AI Agent。AI Agent也(ye)是(shi)现在非常(chang)热(re)的话题。我(wo)们判断(duan)在未来12到(dao)14个(ge)月(yue),Agent的形态将从“工具的辅助(zhu)”走(zou)向“真正的任务承接”。
在未来,我们认为两(liang)年之(zhi)内会(hui)有真正意义上的“首批数(shu)字员工”进入企业内部(bu),广泛参与企(qi)业的研发、销(xiao)售、运营和客户服务(wu)等(deng)重要环节。这意味(wei)着AI Agent不再仅作(zuo)为助手存在,而是从“成本工具(ju)”走向了“价(jia)值创造”,具(ju)备主(zhu)动承担OKR、主(zhu)动反馈、协同(tong)作(zuo)业等(deng)能力。

4、多模态Agent将不断走向实用化
多模态Agent将能够(gou)融合视觉、语(yu)音、传感器等多源输(shu)入,进行(xing)(xing)复(fu)杂推(tui)理、工(gong)具调(diao)用与任务执行(xing)(xing),在医(yi)疗(liao)、金融、法律(lv)等行(xing)(xing)业率先实(shi)现突破。

5、更多国设国造的GPU开启批量交付
然后下面是关于AI的基础设施,第一个是关于芯片。我们认为未来12个月到18个月内,有望看到越来越多所谓“国设”且“国造”的GPU问世。
不光是中国团队设计的GPU,而且是在中国的供应链中生产的GPU,能够真正走(zou)向市场,批量交付。这将(jiang)是对中国AI行业一个巨(ju)大的好消息(xi)。
但与此同(tong)时,我们也(ye)会(hui)看到很(hen)多新(xin)一(yi)代(dai)去颠覆传统(tong)GPU的“冯诺依(yi)曼(man)架(jia)构”的AI芯片出现。比(bi)如说3D内存(cun)堆叠、通算(suan)融(rong)合(he)等新(xin)一(yi)代(dai)AI芯片,也(ye)会(hui)慢慢走向市(shi)场、崭露头角。

6、AI Infra侧将大幅降低Token成本
接下来是我(wo)们对另(ling)一(yi)个AI基(ji)础设施层的(de)判断(duan)(duan)。过(guo)去两年推(tui)理成本已下降了超百倍,我(wo)们判断(duan)(duan)这个趋势还(hai)会(hui)继(ji)续。
未来12到24个月,Token的消耗量还会再提高1到2个数量级。集群推理优化、终端推理优化,和软硬件协同优化,将(jiang)成为AI基础(chu)设施进一步降低Token成本的关键路径。

7、AI催生“非屏幕中心”的新型硬件
再说(shuo)说(shuo)应(ying)用,我们比较确(que)信未来(lai)很快会看到一次“范式(shi)转(zhuan)移”。也就是(shi)说(shuo),过去或现在我们主要的应(ying)用,都是(shi)基于手机,基于“人+屏(ping)幕(mu)”的人机交互(hu)(hu)方(fang)式(shi)。手机这种屏(ping)幕(mu)中心的人机交互(hu)(hu)方(fang)式(shi),已经越来(lai)越跟不(bu)上AI能力的发展。
未来会出现很多更自然、更符合人性的“人机交互方式”,改变我们使用手机的习惯。也许会很快出现一种“能(neng)承载(zai)AI能(neng)力、又(you)符(fu)合人性的交互”的新硬件形态。就像当年(nian)手(shou)机,在15年(nian)前、20年(nian)前把(ba)PC上的很(hen)多(duo)人类需求(qiu)“转移”出(chu)来一样(yang),新一代的硬件(jian),也会把(ba)我们今(jin)天很(hen)多(duo)人类需求(qiu)从手(shou)机上“转移出(chu)来”。

8、垂类切入成为创业破局关键
从我们投资人、创业者的角度,我们其实比较喜欢“go narrow and go deep”。我们的策略就是:应该找一个垂直细分场景,把它做深做透。这样企业才能更有效地与大厂形成差异化竞争,走出所谓大厂的“巨人阴影”。

9、AI-BPO模式崛起
另外一个关于AI应用的预测,我们也看到,过去几年,从卖license,到卖订阅,各种商业模式越来越丰富。而现在我们看到一种新模式正在异军突起,即“AI BPO”——也就是AI驱动的业务外包。
AI BPO(业务外包)模式将在(zai)未来12-24个(ge)月实现商(shang)(shang)业化突(tu)破,从“交付(fu)工具”走向“交付(fu)结果(guo)”,并通(tong)过“按结果(guo)付(fu)费(fei)”的方式,在(zai)金融、客服、营销、电商(shang)(shang)等流程标准化行业快速扩(kuo)张。

10、具身智能将在三个场景率先落地
最后一个预测,是这几个月最热的“具身智能”。很多媒体都在问我:“你们觉得具身智能机器人,最先会在哪些真正有用的场景落地?而不是只是舞台表演?”我们大胆预测,未来12至18个月内,会在挑选、搬运和组装三个场景率先落地,而且是“规模化落地”——我说的“规模化”是“上千台、上万台”的落地。
我们觉得这(zhei)点非常关键。只有在一些细分场景(jing)落地(di)之后,才会形成“从模型、本体到(dao)场景(jing)数(shu)据(ju)”的飞轮效应,推(tui)动整个具身智(zhi)能技术高速(su)向前(qian)发展。
