智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西12月18日报道,火山引擎今日宣布豆包大模型家族全面升级,推出视频理解模型3D生成模型,升级文生图模型音乐模型通用模型pro等,还预告将在2025年春季推出具备更长视频生成能力的豆包视频生成模型1.5版豆包端到端实时语音模型也将很快上线。

其中,豆包·视频理解模型的输入价格定为0.003元/千Tokens,比行业价格降低85%,相当于1块钱能同时处理284张720P图片。该模型已经接入豆包App和PC端产品。

豆包·3D生成模型也正式发(fa)布(bu),与火山引擎(qing)数(shu)字孪生平台veOmniverse结合(he)使(shi)用可高效完成(cheng)智能训练、数(shu)据(ju)合(he)成(cheng)和数(shu)字资(zi)产(chan)制作(zuo),成(cheng)为一套(tao)支持(chi)AIGC创(chuang)作(zuo)的(de)物理(li)世界(jie)仿真模拟(ni)器。

其它多款豆包模型均迎来升级:通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8音乐模型升级到生成3分钟的完整作品;文生图模型2.1版本在业界首次实现精准生成汉字一句话P图的产品化(hua)能(neng)力(li),该模型(xing)已接入即梦AI和(he)豆包(bao)App。

同时,火山引擎升级了火山方舟扣子HiAgent三款平台产品。

火山方舟发布大模型记忆方案Prefix Cache和Session Cache API全域AI搜索,以帮(bang)助企业构建好自(zi)身的AI能力中心(xin),高效开发AI应用。

扣子1.5版本提供全新AI应用开发环境、更强的多模态能力,推出精品模版商店,降低构建AI应用的难度;HiAgent 1.5版本提供100+个行业(ye)应用(yong)模(mo)版,提供全新GraphRAG能力,可(ke)视化更清晰。

火山引擎总裁谭待还公布了豆包大模型的最新成绩单:日均tokens增长使用量已超过4万亿,较7个月前首次发布时增长了33倍

大模型应用正加速向行业渗透。据悉,豆包大模型已与八成主流汽车品牌合作,过去7个月汽车行业日均Tokens消耗增长了50倍;并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍

豆包大模型也获得了众多企业客户青睐:最近3个月,在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有(you)大幅(fu)增(zeng)长。

一、视频理解模型搞定复杂逻辑推理,3D生成模型1分钟生成高质量资产

豆包·视频理解模型支(zhi)持输入文本和(he)图像问题(ti),不仅能精(jing)准(zhun)识别和(he)理(li)解(jie)视觉(jue)内容,还(hai)具(ju)备(bei)推理(li)能力,可(ke)根据图像信息进(jin)行(xing)复杂(za)的(de)逻(luo)辑计算,完成分析图表(biao)、处理(li)代码、解(jie)答学科问题(ti)等(deng)任务。

火(huo)山引(yin)擎Force大会开场就播放了一段展示其视频(pin)理(li)(li)解(jie)能力的视频(pin):对(dui)手(shou)机摄(she)像(xiang)头扫(sao)过的场景,实时(shi)提问“这(zhei)是什么”、“为什么”、“在(zai)哪里(li)能买到”,豆包不仅能识物(wu)(wu)解(jie)答,还(hai)能读(du)报告、读(du)代码(ma)、解(jie)读(du)画作、帮你(ni)在(zai)屋子里(li)找物(wu)(wu)品、推(tui)荐(jian)穿搭(da),以及根据场景进行联想推(tui)理(li)(li)。在(zai)识别代码(ma)时(shi),你(ni)可以圈出问题(ti)区域(yu),让豆包做针(zhen)对(dui)性分(fen)析。

具(ju)体而言,豆包·视频理解模(mo)型有如下(xia)特点:

1)更强视觉内容理解能力:一眼识(shi)别小动物的影子并推断出(chu)这是什么动物,识(shi)别丁达尔效应等自然知识(shi)并解释背后原理,识(shi)别地标建筑(zhu)、生活(huo)中(zhong)不太熟悉的物品并给出(chu)科普信(xin)息。

2)更强理解和推理能力:擅长图表、数学、逻辑、代码(ma)推理。

3)更细腻的视觉描述和创作能力:描述(shu)图(tu)像细节(jie),进行图(tu)像故(gu)事创(chuang)作(zuo)、诗歌创(chuang)作(zuo);可(ke)遵循指令对细节(jie)进行描述(shu),例如能识别(bie)出(chu)被(bei)全选位置的物体是孔明灯。

据火山引擎总裁谭待分享,火山引擎已邀请数百家企业测试该模型,并发现了一些有价值的场景,比如教育场景的判卷指导、作文批改、儿童陪伴等,旅游场景的目的地推荐、外文菜单识别、著名建筑识别及讲解;电商营销场景的拍(pai)照找同款、商品搭配建议、广告种草文案等。

豆包·3D生成模型与火山引擎数字孪生平台veOmniverse结合,成为一款支持(chi)AIGC创作的物理(li)世(shi)界仿真模拟器。

大会现场(chang)演示了通(tong)过veOmniverse编辑(ji)器和(he)文(wen)生(sheng)3D快(kuai)速搭建(jian)工厂车间(jian)场(chang)景,用户输入文(wen)本(ben)就能实(shi)时(shi)(shi)生(sheng)成(cheng)3D场(chang)景和(he)模型。两者可(ke)实(shi)现云上(shang)协同,模型师通(tong)过文(wen)生(sheng)3D快(kuai)速批量生(sheng)成(cheng)模型并(bing)上(shang)传至云空间(jian),布局(ju)师即(ji)可(ke)实(shi)时(shi)(shi)调用并(bing)完成(cheng)场(chang)景设(she)计(ji),显著提升创(chuang)作效率与(yu)协作体验。

该模型可(ke)以高(gao)效完成(cheng)智能训练、数据合(he)成(cheng)和(he)数字(zi)资产制作,支持文(wen)生(sheng)(sheng)3D、图生(sheng)(sheng)3D、多(duo)模态生(sheng)(sheng)成(cheng),1分钟即可(ke)生(sheng)(sheng)成(cheng)高(gao)保真高(gao)质量3D资产,可(ke)实现复杂物(wu)品、物(wu)品组合(he)大规模场景生(sheng)(sheng)成(cheng),并支持多(duo)模态3D资产编(bian)辑。

二、一句话轻松P图&生成海报,音乐模型已落地vivo相册一键成片

会(hui)上,火山引(yin)擎宣布(bu)升级(ji)文生(sheng)图模型、音乐模型、通用模型pro等(deng)模型。

文生图模型现支持一键P图一键海报

特别是“一句话轻松生成海报”功能,首次(ci)实(shi)(shi)现(xian)精(jing)准中文文字生(sheng)成(cheng),并能够实(shi)(shi)现(xian)更全面的描述(shu)和更精(jing)美的画面和排版(ban)。

用户可(ke)以涂抹海报中的(de)文字,输入新文字即可(ke)作文字修改。涂改前后(hou),整张海报能够保(bao)持很好的(de)一致性,不(bu)会影响原(yuan)画面。

一键P图是指(zhi)用户只需(xu)输入(ru)简单的(de)自然语(yu)言,就(jiu)能对图像(xiang)进(jin)行(xing)换装、美化(hua)、涂抹、风格转化(hua)等修图工(gong)作,可以用语(yu)言精准控制(zhi)目标,避免误伤(shang),还(hai)能一次(ci)执行(xing)多个P图任务。

借(jie)助(zhu)视频生成模型,还(hai)能将静(jing)态海报变成动(dong)态海报,让海报中的主体动(dong)起(qi)来,更具生命力。

新升级的豆包·音乐生成模型支持输入歌词生成音乐,从1分钟创作升级为包括前奏、主歌、副歌、间奏、过渡段等完整的3分钟全曲创作

新模型能合(he)理运用旋律、节奏、和声等信息(xi),使全曲保持连贯性。如(ru)果用户对生成的(de)歌词不满(man)意,还能进行局部修改。

vivo手机2024年10月发布的OriginOS 5就采用了豆包(bao)音乐模型,来(lai)为相册(ce)“一键成片”提(ti)供(gong)音乐创(chuang)作(zuo)能(neng)力。模型可根据(ju)用户(hu)提(ti)供(gong)的素材进(jin)行(xing)AI词曲创(chuang)作(zuo)。

豆包通用模型pro也进一步升级,全面对齐GPT-4o的能力,甚至在部分复杂场景任务中效果更好,而使用价格只有GPT-4o的1/8

在专业知识领域,豆包Pro相比五月版本提升了54个百分点,略微领先于gpt-4o;在综合任务处理能力上提升32个百分点,和GPT-4o持平;在指令遵循提升9%,在推理上提升13%,在数学上则提升43%。

中手游、深维智信、威科、赛力斯汽车、叫叫等企业都使用该模型实现了大幅降本增效。例如中手游打造了众多游戏智能NPC,模型调用量半年内上涨了400倍;威科在法务领域使用豆包根据指令精准地实现各种判定结果信息抽取,抽取精度达到95%以上,调用量上涨800倍

三、火山方舟、扣子、HiAgent上新,再降AI开发门槛

火山引擎升级了火山方舟扣子HiAgent三款平台产品,包括发布大模型记忆方案Prefix Cache和Session Cache API,以降低延迟和成本,还有全域AI搜索

火山方舟平台提供全栈MaaS能力,支持模型精调、推理、评测等全方位功能,也提供了丰富的插件能力、扩展API和高代码解决方案。其大模型记忆方案能(neng)让大(da)模型更(geng)懂用户,具有三(san)大(da)特(te)点(dian):精准效(xiao)果,超(chao)大(da)规模亿级(ji)记忆(yi)片段,更(geng)快响(xiang)应(ying)速度&更(geng)低使用成(cheng)本(ben)。

上下文缓存是兼顾推理成本和响应速度的关键。新发布的Prefix Cache和Session Cache API,创国内云厂商首例,无需重复传输对话就能达到多轮上下文的效果,将用户体验延迟减少50%,并给出了很有竞争力的缓存命中定价,可将企业使用缓存成本降低80%

全域AI搜索具备场景化搜索推荐一体化、企(qi)业私域信息整合等服务(wu)。

火(huo)山(shan)(shan)引擎AI搜索推荐引擎的(de)特点(dian)包括:1)有着强大的(de)模(mo)型基(ji)础(chu)能(neng)(neng)力支撑,根植于火(huo)山(shan)(shan)方舟的(de)系统能(neng)(neng)力;2)从第一天(tian)开始就在(zai)强调(diao)搜索推荐一体化,来帮助客户(hu)实现(xian)更更精准、更深(shen)度(du)的(de)个性化体验;3)多(duo)模(mo)态,支持文本、图像、视频、音频等(deng)多(duo)模(mo)态的(de)对话式输(shu)入(ru)输(shu)出;4)百亿库(ku)容量、超(chao)大规模(mo)吞(tun)吐毫(hao)秒(miao)级检(jian)索延迟、更多(duo)产品覆盖;5)适用于电商、信息检(jian)索、娱乐等(deng)全(quan)场景。

例如(ru)该引擎可用于电商营销场景,支(zhi)持个性化(hua)推荐商品页(ye)面链接、指示AI下单(dan);也可以用在(zai)企业信(xin)(xin)息检索场景中(zhong),改进企业内部的信(xin)(xin)息效率流(liu)转和生产力。

完整的AI搜索(suo)和推荐能力将在未来几个月陆(lu)续在火山引擎公开使用。

火山(shan)引(yin)擎还进(jin)一(yi)步升级(ji)了基(ji)于互联网(wang)搜(sou)索(suo)(suo)的(de)AI增强插件,可一(yi)键触(chu)达(da)全域信息,在极短时间内(nei)总结呈现搜(sou)索(suo)(suo)结果,支持多(duo)模态内(nei)容和(he)丰富(fu)的(de)呈现方式,以帮(bang)助企业做出更有吸引(yin)力的(de)多(duo)模态交(jiao)互。

扣(kou)子已成为中国(guo)最具(ju)(ju)活力的智能体(ti)开(kai)发社(she)区之一,有超过(guo)100万的活跃开(kai)发者,创(chuang)建了200万+各具(ju)(ju)特色的智能体(ti)。

今天,火山引擎正式发布扣子1.5版本,提供全新(xin)的(de)应用(yong)开(kai)发环(huan)境,支持GUI搭建界面(mian),并可(ke)一(yi)键发布为小程序、H5、API等(deng)多种应用(yong)形(xing)态,还增强(qiang)了多模态能(neng)(neng)力,全面(mian)升级(ji)语音(yin)识(shi)别和(he)合成能(neng)(neng)力,并与火山引擎视频云(yun)的(de)RTC集(ji)成,提供了高质量(liang)的(de)实时(shi)语音(yin)通话能(neng)(neng)力。

此(ci)外,扣子(zi)(zi)(zi)1.5推出了(le)模(mo)板商店,提供(gong)了(le)大量可一键(jian)复制的(de)精(jing)品(pin)模(mo)板,进一步(bu)降(jiang)低了(le)构建AI应用的(de)难度。比(bi)如和府捞(lao)面的(de)产(chan)品(pin)经理通过(guo)(guo)扣子(zi)(zi)(zi)完成了(le)顾客点评分析(xi)智能体,苏泊尔通过(guo)(guo)扣子(zi)(zi)(zi)将智能体引入到(dao)用户的(de)食谱创作(zuo)和居家养生过(guo)(guo)程(cheng)中,天文学(xue)界(jie)的(de)科研工作(zuo)者们(men)用扣子(zi)(zi)(zi)搭(da)建智能体来(lai)辅助科研。

企业(ye)(ye)构(gou)建自身(shen)的(de)(de)AI能(neng)(neng)力中心,需要解决好(hao)安全监管(guan)、数据治理、应用落地、系统集成等(deng)问题(ti)。火山引擎HiAgent支持企业(ye)(ye)私有部署(shu)(shu)和混合部署(shu)(shu)模式,能(neng)(neng)够满足复杂(za)的(de)(de)监管(guan)合规(gui)要求。

HiAgent可以(yi)与企业现有(you)系统(tong)(tong)(tong)打通,把企业内(nei)部或(huo)外(wai)部的系统(tong)(tong)(tong)接口、工具(ju)等封(feng)装(zhuang)为插件,以(yi)插件中心形式提(ti)供调用,实现智能(neng)体和现有(you)业务系统(tong)(tong)(tong)的集成。

新发布的HiAgent 1.5版本,依(yi)靠过(guo)往一(yi)年的(de)实践,从企(qi)业级真实应用(yong)场(chang)景中,沉(chen)淀出100+行业应用(yong)模板,供企(qi)业开箱即用(yong),敏(min)捷(jie)落地;提供全(quan)新(xin)的(de)GraphRAG能(neng)力(li),通过(guo)更(geng)强的(de)知(zhi)识(shi)融合效果,帮助企(qi)业打造AI知(zhi)识(shi)助手,让知(zhi)识(shi)检索更(geng)精准、知(zhi)识(shi)回答(da)更(geng)丰富、可(ke)视化更(geng)加(jia)清(qing)晰。

HiAgent已为(wei)华泰证(zheng)券、飞(fei)鹤集团、浙江(jiang)大(da)学、宁(ning)德时代、国家管(guan)网等众多企业(ye)和高校提供了服务。

结语:下一个十年,计算范式将进入到AI云原生的新时代

“今年(nian)是大模型(xing)高速发展(zhan)的(de)一年(nian)。当你看(kan)到一列高速行(xing)驶(shi)(shi)的(de)列车(che),最重要的(de)事就是确保(bao)自己要登上这趟列车(che)。通过AI云原生和豆包大模型(xing)家族,火山引(yin)擎希望帮助企业做好AI创新,驶(shi)(shi)向(xiang)更美好的(de)未来。”谭待说。

他(ta)谈(tan)道,豆包(bao)大模(mo)型(xing)虽然(ran)发布(bu)较晚,但一直在快速迭代进化,目前已(yi)成(cheng)为(wei)国内(nei)最全面、技(ji)术(shu)最领先的大模(mo)型(xing)之一。

火山引擎团队认为下一个(ge)十年,计算范式(shi)应该从云原生,进入到AI云原生的新时代(dai)基于AI云原生的理念,火山引擎推出新一代计算、网络、存储和和安全产品

在计算层面,火山引擎GPU实例,通过vRDMA网络,支持大规模并行计算和P/D分离推理架构,显著提升训练和推理效率,降低成本;在存储层面,新推出的EIC弹性极速缓存,能够实现GPU直连,使大模型推理时延降低至1/50、成本降低20%;在安全层面,火山将推出PCC私密(mi)云(yun)服务,构建(jian)大模型的可信应用(yong)体系(xi)。基于PCC,企(qi)业能够实现(xian)用(yong)户数(shu)据在(zai)云(yun)上(shang)推理(li)的端到端加(jia)密(mi),而且性能很好,推理(li)时(shi)延(yan)比明文模式的差异在(zai)5%以内。

在谭待(dai)看来(lai),豆包大模(mo)型市(shi)场份额的爆发(fa),得(de)益于火(huo)山引(yin)擎“更强模(mo)型、更低成本、更易(yi)落地”的发(fa)展理念,让(rang)AI成为每一家企业都能用(yong)得(de)起(qi)、用(yong)得(de)好的普惠科技(ji)。