智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 漠影

今年,字节跳(tiao)动旗下AI应(ying)用豆包的交(jiao)互方式迎来多次升级(ji),从(cong)春节期间的实(shi)时(shi)语(yu)音通(tong)(tong)话,再到5月份新增的视频通(tong)(tong)话功能,如今,豆包已经能像(xiang)真人一样通(tong)(tong)过多模态交(jiao)互实(shi)现无缝沟通(tong)(tong)。

我们先来看几个例(li)子:

打开视频(pin)通话功能,随手对准(zhun)一个欧洲小(xiao)国(guo)的国(guo)旗,豆(dou)包便能结合音视频(pin)信息,瞬(shun)间给出(chu)正确答案。

通话过程中,用户可以随意地停顿、思考、改变话题,豆包能准确地把握回复的时机;而在豆包说话时,可以随(sui)时打断,向它(ta)提出新的要求。

在地铁站、电梯、地下车库等较为复杂的网络环境下,豆(dou)包的(de)实时交互(hu)能力也(ye)(ye)不会(hui)大(da)打(da)折扣。下方案例(li)中,豆(dou)包的(de)响应速度(du)没有(you)出(chu)现明显的(de)问题,给出(chu)的(de)回答也(ye)(ye)正确、清晰。

要(yao)(yao)实现这种(zhong)近乎直觉性(xing)的体验,并(bing)在一款(kuan)国民级AI应(ying)用中(zhong)稳定提供实时音视频(pin)交互,豆包需(xu)要(yao)(yao)攻克不少挑战。

除了(le)提(ti)升模(mo)型能力之外,实时(shi)音视频交互(hu)要如何将(jiang)摄(she)像(xiang)头捕捉的(de)画(hua)面高(gao)清(qing)呈现,如何将(jiang)AI的(de)视觉推理和搜索(suo)反(fan)馈(kui)同步,又如何在(zai)疯(feng)狂丢包的(de)弱网环境(jing)中依(yi)旧维持高(gao)质量通信?

豆包最终选择的方案,是火山引擎的RTC(Real Time Communication,实时音视频)技术。目前,真人用户间的音视频通话几乎都依赖RTC技术,火山引擎智能交互产品负责人杨若扬向智东西透露,他认为,未来的人机音视频通话也必将全(quan)面进(jin)入RTC时代。

一、实时交互技术路径分野,RTC凭借什么胜出?

RTC是一项专门为低(di)延迟(chi)互动(dong)设计的(de)技术,能(neng)降低(di)通信延迟(chi)、确(que)保实时性和质量,让用(yong)户(hu)与(yu)用(yong)户(hu)、用(yong)户(hu)与(yu)系统间实现近乎“面对面”般的(de)无(wu)缝(feng)音视频交互体验。

这(zhei)项(xiang)技术涉及多个(ge)模块,比如音视频的(de)采集(ji)与编解码、网络传输、网络自适应等,这(zhei)些(xie)模块协(xie)同工作(zuo),保证了(le)用(yong)户从(cong)摄像头、麦(mai)克风采集(ji)的(de)数据能清(qing)晰(xi)流畅的(de)传送至接收方,而用(yong)户也(ye)能及时收到对方的(de)音视频反(fan)馈。

你给豆包打的这通视频背后,藏着AI实时交互的体验密码

虽然RTC并不是目前业内唯一的实时交互(hu)方(fang)案,但(dan)与基于TCP协(xie)议(yi)实现的另一大主流方(fang)案WebSocket相(xiang)比,RTC拥有显著(zhu)的优势(shi)。

协议方面,RTC底层采用UDP传输,避免了传统TCP必须完整接收再传给应用层的机制。RTC允许一定程度丢包但保证速度,因此延迟非常低,特别适合实时(shi)音视频通话和互动

理想情况下,RTC和WebSocket的语音延迟(chi)差异不大。但现实世界的网络情况复(fu)杂(za)多变,WebSocket对丢包(bao)比较敏感,网络波动时延迟(chi)明显升高,不如RTC流畅。

RTC技术具有较强的抗弱网能力。线上实测数据清晰印证,在20%丢包环境下,WebSocket方案已出现严重卡顿、断连,并且线上已有高达15%的用户不可用;而RTC即使在80%极(ji)端丢包下,不可用率也仅(jin)为1%,体验(yan)稍有滞后(延(yan)时4.6s)。

在视频场(chang)景,RTC技(ji)术(shu)还(hai)可以利用其带宽估计、前向纠(jiu)错(FEC)和丢包重传等抗拥塞能力与(yu)端到端传输优化,有效降(jiang)低移(yi)动(dong)网络或(huo)拥挤WiFi下画面花(hua)屏与(yu)卡顿的风险。

火(huo)山(shan)引(yin)擎的(de)RTC技术(shu)于(yu)2021年(nian)(nian)随品(pin)牌(pai)发布上(shang)线,但其(qi)研(yan)发始于(yu)2017年(nian)(nian),用(yong)于(yu)满(man)足抖音直播连麦等需求。此(ci)后(hou),这一(yi)技术(shu)陆续在字节(jie)内部的(de)音视(shi)频通(tong)话、社交(jiao)娱(yu)乐(le)、游戏、在线会议等场景落地(di)。

2021年火山引擎成立后,其RTC技术逐渐产品化,承载能力也不断提升。而生成式AI的爆发,给RTC技术带来了新的发展机遇,2024年初,火山引擎推出了基于RTC的对话式AI技术方(fang)案,这(zhei)便是豆包交互体验升级(ji)背后(hou)的重要支撑(cheng)。

二、豆包交互体验再升级,揭秘背后核心技术栈

我们已在(zai)文章开头的(de)案(an)例中(zhong)(zhong),看到了(le)RTC支持下豆包语(yu)音交互、视(shi)频(pin)电话的(de)流畅、即(ji)时(shi)性(xing)体验。在(zai)智东西与火山引擎智能交互产品负责人杨若(ruo)扬的(de)沟通(tong)中(zhong)(zhong),我们了(le)解(jie)到了(le)这(zhei)一效果背后的(de)具体实现(xian)。

豆包首先充分利用了火山引(yin)擎(qing)RTC方(fang)案的既有优势,实现了低延迟、高(gao)质量和抗弱(ruo)网的音(yin)视频交互(hu)体验。

在网络层面,火山引擎拥有覆盖全球的边缘节点和(he)骨(gu)干网(wang)络,这能(neng)有(you)效(xiao)缩短数据传(chuan)输(shu)物理路(lu)径,减少中间(jian)节点,降低延迟和(he)(he)丢包风险(xian)。同时,智能(neng)路(lu)由技(ji)术可实时感(gan)知链路(lu)状态和(he)(he)拥(yong)塞情况(kuang),动态选择最优路(lu)径,确保(bao)数据传(chuan)输(shu)高效(xiao)流畅。

你给豆包打的这通视频背后,藏着AI实时交互的体验密码

在算法层面,火山引擎RTC技术拥有网络、音频和视频多类算法。网(wang)络(luo)(luo)侧(ce)通过动态(tai)带(dai)宽、自适(shi)(shi)应传(chuan)(chuan)输、前(qian)向纠错、智能重(zhong)传(chuan)(chuan)等机制提升弱网(wang)适(shi)(shi)应能力;音(yin)视频(pin)侧(ce)结(jie)合(he)神经网(wang)络(luo)(luo)编解码、分层和感知内容编码等技术,动态(tai)优化编码参数,有效缓解“最后一(yi)公里(li)”网(wang)络(luo)(luo)不确定(ding)性,保障用户端音(yin)视频(pin)传(chuan)(chuan)输的清晰度与(yu)稳(wen)定(ding)性。

杨若扬认为,在豆包这样的“对话式AI”场景,RTC技术所服务的对象已从人和人之间的交流,转变为人与机器的交流。火山引擎RTC技术针对新场景的特点,在音视频处理层面做了针对性的升级和优化

视频流与大模型在输入输出形式上存在明显差异:视频由一帧帧图片组成,而当前的多模态大模型以理解单张图片为主,这要求模型能分析帧间联系与时序,保证语义连续,因此必须不断优化视频理解与关键帧提取算法,以提升模型对动态场景的感(gan)知与(yu)处理能力。

在人(ren)与AI的对话(hua)(hua)中,AI如(ru)何准(zhun)确断(duan)句(ju),选(xuan)择接话(hua)(hua)、插话(hua)(hua)的时(shi)机也是一大挑战(zhan)。人(ren)类能(neng)凭语境判(pan)断(duan)对方(fang)话(hua)(hua)语结束时(shi)间,并(bing)凭音色识别说话(hua)(hua)者(zhe)、滤除无关噪(zao)声,而大部分AI系统仅依赖(lai)停顿时(shi)长判(pan)断(duan),往往不够准(zhun)确,这就需(xu)要引入智能(neng)语义判(pan)停与声纹(wen)降噪(zao)算法(fa)。

智能语义(yi)判停技术(shu)可以根据语(yu)义判断用(yong)户(hu)话语(yu)是否完整,让模型不会过早(zao)回复。下方案例中,用(yong)户(hu)可以停顿,思(si)考,而不会被豆包插话。

声纹降噪算法能在嘈杂(za)环境中(zhong)聚焦目标(biao)说话(hua)者(zhe),屏蔽环境人声及噪声干扰,将误打断率降低15%-20%。

这些改进让AI在(zai)(zai)音视频通话中展现出更(geng)(geng)接近人类的特(te)征,也(ye)让用户在(zai)(zai)与(yu)豆包对话时能获得更(geng)(geng)加流畅、自然、贴近真实互动的使用感受。

三、智能音视频交互需求井喷,RTC有望提供坚实底座

随(sui)着(zhe)大模型(xing)与AI应用(yong)的(de)日渐(jian)成熟(shu),音视(shi)频已成为(wei)新一代AI交互中不可(ke)或缺的(de)一部分,这些(xie)模态(tai)所提供的(de)沉浸(jin)式(shi)体验(yan)对用(yong)户天然有吸引力和亲近性。

在(zai)虚拟陪伴、智(zhi)能玩具(ju)、智(zhi)能家居(ju)、智(zhi)能教育等广阔场(chang)(chang)景(jing)中,用户对于(yu)低延时、高质(zhi)量、自然流畅的(de)人(ren)机对话需(xu)求与日俱增,而火山引擎(qing)RTC这样能够支撑复杂(za)场(chang)(chang)景(jing)实时音视频交互(hu)的(de)底层(ceng)传输技术正是(shi)保障(zhang)用户体验(yan)的(de)关键(jian)。

你给豆包打的这通视频背后,藏着AI实时交互的体验密码

在多Agent、多人场景中,RTC技术还展现出较好的可扩展性,相较传统(tong)WebSocket实现语音方(fang)案,RTC在网络层和算(suan)法层都更为成熟,原生(sheng)支持房间管理、多流(liu)控制、音视(shi)频(pin)混音与优先级(ji)策略(lve),可应用于(yu)多人(ren)娱乐、企业办公(gong)等场景。

火(huo)山引擎(qing)基(ji)于(yu)RTC的对话式(shi)AI技术(shu),不仅仅是“豆包专(zhuan)属”,而是能为所有(you)AI时代的产(chan)品提供重要价(jia)值。作为火(huo)山引擎(qing)的核心(xin)音视频技术(shu)之一,RTC 已(yi)广(guang)泛应用于(yu)字节各大业(ye)务场景,在真实(shi)用户环境中反复打磨与(yu)优(you)化。

同时,火山引擎提供的RTC服务与其内部业务完全同源,换句话说,企业通过火山引擎接入RTC,使用的就是与抖音、飞书、豆包同款的算法、架构与策略。

当然,RTC技术也存在行业共性(xing)难题(ti):一方面(mian),自建集成方案门槛(jian)较(jiao)高,需(xu)要专门的网(wang)络(luo)传输与音(yin)(yin)视频(pin)(pin)处理能力,另(ling)一方面(mian),云(yun)服务资源消耗(hao)也不可小(xiao)觑,此外深度音(yin)(yin)频(pin)(pin)算(suan)法调优也需(xu)大量投入。

杨若扬观察到,上述难题导致许多企业不得不选择实现成本相对低廉、门槛较低的WebSocket,一定程度上牺牲用户体验,等待用户规模扩展后再考虑换用更成熟方案,这无形中限制了产品的成长与竞争力。

针(zhen)对(dui)这(zhei)些痛(tong)点,火山引擎对(dui)话式(shi)AI一站式(shi)方案提供了低(di)门槛、高(gao)质量的(de)接入(ru)途径(jing)。开发者(zhe)无需从(cong)零开始搭建(jian)复(fu)杂架构,即可实(shi)(shi)现(xian)用户与AI的(de)实(shi)(shi)时音(yin)视频互动,构建(jian)契合业(ye)务场景的(de)AI实(shi)(shi)时对(dui)话能力(li)。

你给豆包打的这通视频背后,藏着AI实时交互的体验密码

▲火山引擎对(dui)话(hua)式AI官网:

//www.volcengine.com/product/veRTC/ConversationalAI

火山引擎还为开发者提供了每月10000分钟的免费额度,进一步降低了开发(fa)者的(de)前期验证(zheng)与迭代成本。

结语:从难点到标配,RTC成对话式AI首选项

在对话式(shi)AI场景(jing)中,RTC正在成为企业(ye)的优选方案,这种整合(he)方案让企业(ye)能(neng)更(geng)加专注业(ye)务创新,以更(geng)低(di)成本、更(geng)快(kuai)速度落地语音与音视频能(neng)力,从一(yi)开始就为用(yong)户带来高品质的交(jiao)互体验,为下一(yi)代智能(neng)应用(yong)赢得先机(ji)与口碑。

火山(shan)引擎的对(dui)话式(shi)AI一站(zhan)式(shi)方案,让实(shi)时音视频从“难点”变成“标配”,为各类(lei)AI应用(yong)与智能体生态拓展广(guang)阔空(kong)间,让未来的人机互动更加顺畅、高效、有(you)温(wen)度。

杨若扬称,在多模态(tai)音视频技术上,火山引擎希望让人(ren)和AI之间的(de)对话(hua)越(yue)来(lai)越(yue)接近人(ren)与人(ren)之间的(de)真实沟通,这也(ye)是(shi)他们未来(lai)持(chi)续努力的(de)方向。