智东西(公众号:zhidxcom)
作者 |  陈骏达
编辑 |  心缘

智东西6月17日报道,今天,豆包电脑版和网页版全量上线了AI播客功能。用户上(shang)传PDF或网(wang)页(ye)链(lian)接后,可一键生成(cheng)双人对(dui)话的播客(ke)节目(mu)。

刚刚,豆包AI播客上线:8万字文档秒变节目,语气词和停顿都像人

上线后,智东西第一时间对豆包AI播客功能进行了体验。实测中,豆包能将8万词英文文档在3秒内生(sheng)成(cheng)为播客节目,用户(hu)可在对(dui)话(hua)界(jie)面收(shou)(shou)听播客,收(shou)(shou)听的(de)同时(shi),豆包会(hui)并行生成后续内容。

豆包交付的AI播客节目以男女双人对谈的形式进行,能对用户(hu)上(shang)传的网页、文件等进行深度改(gai)造(zao),使其(qi)更适合听众消费。

AI播客对谈的节奏流畅自然,还会有大量的语气词、附和、停顿,这很(hen)好地模拟了真人博客中(zhong)的(de)口语(yu)习惯,有(you)效提(ti)升(sheng)了拟人程(cheng)度。智东西(xi)还了解(jie)到(dao),这两个声音是由字(zi)节与专业(ye)播客创作者联手(shou)打造的(de)。

不过,在实测中,我们也发现了豆包AI播客当前存在的部分问题。例如,其生成节目的信息密度并不高,且含有大量重复的(de)句式和语气词,在长时间收听后,用(yong)户可能会觉得有些单(dan)调。

日前,智东西曾与字节跳动语音中台负责人郑炜明进行交流,他向智东西透露,未来,豆包AI播客的收听体验会进一步丰富,不会只有简单的承接,还能有观点的交流与碰撞。团队已经在开发不同风格的音色,探索音色克隆、风格定制等功能,语(yu)种范(fan)围(wei)也会(hui)扩展至中(zhong)文之(zhi)外(wai)。

先(xian)前,豆包(bao)·AI播(bo)客(ke)(ke)模型已在字节旗(qi)下(xia)的AI Agent平台扣子空间上线(xian),并(bing)支(zhi)持(chi)一句话生成播(bo)客(ke)(ke)的功能,可自主查(cha)找相关(guan)话题,输(shu)出播(bo)客(ke)(ke)。

一、8万词PDF文件秒出播客,还能自主给节目“划重点”

豆包AI播客功能的入口放在了输入框下方,点击进入后,会跳转出两个选项。用户既可上传文件,也可将网页发送给豆包。不过,目前豆包AI播客仅支持PDF文(wen)件的上传。

刚刚,豆包AI播客上线:8万字文档秒变节目,语气词和停顿都像人

首先来听(ting)听(ting)生成效果。智东西将(jiang)一份(fen)8万余(yu)词、共(gong)140页的起诉书上传给豆包,在(zai)花费数秒(miao)钟(zhong)解析文件后,豆包立(li)刻返回(hui)了可供收听(ting)播(bo)(bo)客(ke)(ke)的播(bo)(bo)放器和一张播(bo)(bo)客(ke)(ke)封面图,完整生成一档播(bo)(bo)客(ke)(ke)的时间(jian)大约(yue)在(zai)1-2分钟(zhong),用户可以边听(ting)边等,不影响(xiang)收听(ting)体验。

刚刚,豆包AI播客上线:8万字文档秒变节目,语气词和停顿都像人

实测多个案例后,智东西发现豆包生成的AI播客基本遵(zun)循了(le)一个(ge)特定的模式(shi)——女主持(chi)人负(fu)责控制播客的节奏、提问(wen)等,男主持(chi)人负(fu)责主要内容(rong)的讲述。

豆包AI播客所生成的节目的语言风格较为口语化,在收听过程中完全感受不到原文件中正式甚至有些拗口的表达。尽管智东西上传的是一份英文文件,也没有明显的翻译腔。

具体的收听(ting)体验层面,可(ke)以听(ting)到AI主(zhu)播们会通过调(diao)整(zheng)语速等方式(shi)来(lai)强(qiang)调(diao)重点(dian)信息。

也会使用(yong)一些语气词和包含情(qing)感(gan)的评价(jia),这(zhei)加强了播客的“真(zhen)人感(gan)”。

在网(wang)页转播(bo)客场景(jing),豆包AI播(bo)客能交付不错的结果,不会受(shou)到网(wang)页上无关信(xin)息的影响,基本可以准确反(fan)映网(wang)页主要内(nei)容。

在智东西先前参与(yu)的内测中,豆包还会(hui)在网(wang)页(ye)地址栏右侧提供“网(wang)页(ye)播客”的入口(kou),不过在公(gong)测版本中,这一(yi)功能尚未(wei)上(shang)线。

刚刚,豆包AI播客上线:8万字文档秒变节目,语气词和停顿都像人

二、可定制性、信息密度仍有提升空间,未来或扩展多人对谈、单口播客

目前豆包AI播客(ke)功能的(de)提(ti)示(shi)词是固定(ding)的(de),用户(hu)无法给出播客(ke)制(zhi)作(zuo)的(de)更具体建议(yi),在可定(ding)制(zhi)化程度上还有些提(ti)升空间(jian)。系统提(ti)示(shi)词很简单,就是“生成播客(ke)”。

用户暂时也无法直接导出豆包AI播客的生成结果。有需要下载播客的用(yong)户可以移步(bu)“扣子(zi)空间”进行体(ti)验,在这一(yi)应用(yong)中,豆包AI播客及其封面都(dou)可导(dao)出,还能看到具体(ti)的逐(zhu)字稿。

刚刚,豆包AI播客上线:8万字文档秒变节目,语气词和停顿都像人

智东西用不同长度的文本测试了豆包生成的AI播客时长。最终,其生成的节目最长不会超过10分钟,大多集中在5分钟左右。这导致了一些问题:当用户上传高信息量长文档时,可能会被过度压缩和省略;上传简短的内容时,豆包也会(hui)煞有介事的讲上两三分钟。

在第一部分的测试案例中,长文档中后半部分内容便被完全省略了。在下方案例中,智东西将一篇数百字的快讯发送给了豆包,由于原本的信息量不大,最终其生成结果也略显单薄。大量语气词、口语化表述和模式化问答的存在,导致信息密度有待提(ti)高

刚刚,豆包AI播客上线:8万字文档秒变节目,语气词和停顿都像人

▲快讯原文

此外,豆包中提供的AI播客功能并不能对材料中的已有话题进行补充,提供背景信息,这可能导致播客在内容(rong)深度和广度方(fang)面有所欠缺(que)

结语:AI播客已成热门赛道

近期,AI播客(ke)(ke)已(yi)经成为业(ye)内一条相对小(xiao)(xiao)众、但获得(de)诸多企业(ye)押注的(de)赛道。除(chu)了字(zi)节的(de)豆包(bao)AI播客(ke)(ke)之外,前段时间,国内头(tou)部播客(ke)(ke)平台小(xiao)(xiao)宇宙已(yi)经利用MiniMax的(de)语音技术,内测了外语播客(ke)(ke)一键转中文收(shou)听功能。海(hai)外的(de)谷(gu)歌NotebookLM生成播客(ke)(ke)功能更是收(shou)获一批忠实(shi)用户(hu)。

中国(guo)拥(yong)有(you)全球(qiu)增长最(zui)快的(de)播客(ke)市(shi)场。2025年,中文播客(ke)听(ting)众的(de)数量预计(ji)将突破1.5亿。AI播客(ke)有(you)望通过给创(chuang)作者提供(gong)便利、给消费者提供(gong)丰(feng)富(fu)的(de)收听(ting)选择,进一步释放(fang)这一市(shi)场的(de)潜力。

我们也让豆包将(jiang)这篇(pian)文章转为了播客(ke),一起来听听最终的效果吧。