智东西(公众号:zhidxcom)
作者 | GenAICon 2024
2024中国生成式AI大(da)会(hui)于(yu)4月(yue)18-19日在北(bei)京举行,在大(da)会(hui)第二天(tian)的主会(hui)场(chang)AIGC应(ying)用(yong)专场(chang)上,行者AI创始(shi)人(ren)&CEO尹学渊以《生成式AI赋能智慧文娱及教育新生态》为题(ti)发表演讲。
尹学渊谈到内容创作领域长期存在“不可能三角”的问题,即质量、成本、效率三者之间永远无法达成平衡。而生成式AI的出现有望打破(po)这一(yi)僵局,为(wei)教(jiao)育、文旅行业开启了(le)交(jiao)互式、沉浸式新体验。
行者AI在多模态领域进行了广泛探索,将美术大模型和音乐大模型用在实际落地的“最后一公里”阶段。尹学渊强调了大(da)模型与特定领域工作流(liu)程紧密结合的(de)重要性,如果工作流(liu)程整合不当,一些看似功能强大(da)的(de)产品会在实际落地应用中问题(ti)频(pin)出。
工业化AI与消费级娱乐AI的差异可以概括为三个关键特性:一致性、可控性、高精度。根据真实客户反馈,行者AI的“行者丹炉”以及“图刷刷”工具可将产品策划、美术总监、原画师、3D组、运营/美宣等工种的工作效率提升3-5倍。
以下为尹学渊的演讲实录:
我(wo)的(de)原定主(zhu)题(ti)为(wei)(wei)“生成式AI在文娱和教育领域的(de)探(tan)索”,但主(zhu)办方认为(wei)(wei)这(zhei)个标题(ti)过于(yu)谦逊,于(yu)是(shi)为(wei)(wei)我(wo)加(jia)上了“赋能”二(er)字。今(jin)天我(wo)的(de)分(fen)享将主(zhu)要以案例为(wei)(wei)主(zhu),向大家(jia)展示我(wo)们是(shi)如何利用生成式AI进(jin)行创新实践的(de)。
首先(xian),请允许我(wo)(wo)做个简短的自(zi)我(wo)(wo)介绍。我(wo)(wo)自(zi)认为是(shi)一名连(lian)续创业(ye)者。2013年(nian),我(wo)(wo)联合创立了游(you)戏公(gong)司(si)(si)龙渊(yuan)网络(luo)。2016年(nian),我(wo)(wo)们在龙渊(yuan)网络(luo)内部(bu)成立了AI实(shi)(shi)验室。到了2020年(nian),我(wo)(wo)们将AI实(shi)(shi)验室的产品独立出来,分拆成一家AI公(gong)司(si)(si)。
我们公司专注于AI的应用层面,多年来一直在这个领域深耕。在生成式AI的概念尚未普及之前,我们就已经开始研发AI音乐、AI美术和AI智能体等产品,这些(xie)产品如今已在多(duo)个场景中得到应用。
今天(tian)我将分享的内容聚焦在文娱和教育(yu)这(zhei)两个(ge)行业。
一、生成式AI的关键作用,打破内容创作“不可能三角”
我们所有机会的起源都可以追溯到这张图所展示的原理。在过去,内容创作领域存在着一个所谓的“不可能三角”。在这个三角中,质量、成本和效率三者之间似乎永远无法达到平衡。

通(tong)常情况下,如(ru)果(guo)追(zhui)求高(gao)质量的(de)作品,那么成(cheng)(cheng)本(ben)必然高(gao)昂,且创作过程缓慢(man)。如(ru)果(guo)你(ni)想要快速(su)获(huo)得(de)成(cheng)(cheng)本(ben)低廉的(de)成(cheng)(cheng)果(guo),那么最终产出的(de)内容很可能(neng)在美(mei)观度上不尽如(ru)人(ren)意。如(ru)果(guo)你(ni)既想要高(gao)质量,又希(xi)望快速(su)完成(cheng)(cheng),那么唯(wei)一的(de)办法就是增加投入。
你会(hui)发现,在生成式AI出现之前,这个“不(bu)可能三角(jiao)”一直是内(nei)容创作领域的一大难题。
生成式AI的主要作用就是打破这个“不可能三角”。现在(zai),我们可以在(zai)保持(chi)作(zuo)品质量的同时,实现快速且成(cheng)本效益高的创作(zuo)。
在我看来,所有的机会可以用两个关键词来概括:多模态和互动式。特别(bie)是(shi)当我们发现生(sheng)成式AI技术(shu)解决了传(chuan)统内容创作的(de)“不可(ke)能(neng)三角”问题之后,许多之前(qian)只(zhi)能(neng)想(xiang)象而(er)无(wu)法实现的(de)事情,现在已经有了实现的(de)可(ke)能(neng)。
无论(lun)是游戏、大(da)视(shi)听、智慧教(jiao)育、元宇宙(zhou),这些领(ling)域都(dou)可以(yi)分解为(wei)2D、3D、声音、语言等不同的(de)(de)工(gong)程化(hua)组件。随着生成式(shi)AI的(de)(de)革命(ming)性(xing)进步,我(wo)们现在能(neng)够在这些领(ling)域实(shi)现多模态和互动式(shi)的(de)(de)应用。至(zhi)于什(shen)么(me)是互动式(shi),我(wo)将通过(guo)一些案例来具体(ti)展开说明。
这个机遇的核心在于,过去在内容创作过程中,我们总是面临着高成本和低成功率的双重挑战。在这种背景下,商业压力使得大家不得不将注意力集中在提高付费率和转化率上,很难真正从人类真善美的角度出发去设计和创造内容。无论是游戏还是影视剧作品,最终都不得不为了快速回收成本而牺牲某些价值。如果连成本都无法回收,那么这种商业模式就难以为继。
传统的教育、医疗、宣传和文化传播等领域,虽然非常值得投入,但高昂的成本限制了我们的行动。而今天,AI技术的发展为我们带来了新的机遇。这就是我想要强调的点。通过AI技术,我们可以在保持高质量内容创作的同时,降低成本,提高成功率,从而为这些领域带来(lai)更广阔的(de)发展空间。

二、美术、音乐大模型落地“最后一公里”,将真实用户平均效率提升3~5倍
行者AI在(zai)多模态(tai)领域进(jin)行了(le)(le)广泛的探索和尝试。我们的美术(shu)大模型解决了(le)(le)很多基础性问题,也带来了(le)(le)很多新的可能。
然而,在将这些技术应用到实际工作中的最后一步,即“最后一公里”阶段,我们发现所有大模型都必须与特定行业和领域的工作流程紧密结合。许多产品看(kan)似功(gong)能强大(da),但在实际应(ying)用(yong)中却问题频出,难以落地,这是工(gong)作流程整(zheng)合(he)不当所致。
从美术层面来说,我们通常会在每个环节使用不同的工具和算法来解决问题,这些环节包括美学设计、还原度、创意构思、用户界面设计、图标制作、原画创作、3D建模以及特效和动作设计等。
并不是(shi)说我(wo)们(men)可以通过一(yi)个包罗万(wan)象的(de)大模型(xing)(xing)来(lai)解决所有问题,实(shi)际(ji)上这样做是(shi)非(fei)常困难(nan)的(de)。相反,我(wo)们(men)的(de)目标(biao)是(shi)开发(fa)出各种不同的(de)算(suan)法和(he)工(gong)具,使美术从业(ye)者能够走(zou)在AI技(ji)术的(de)前(qian)沿,掌(zhang)握并有效利用AI技(ji)术,而不是(shi)仅仅为了做出一(yi)个大模型(xing)(xing)。
工业化AI与To C的娱乐AI之间存在显著差异,这些差异可以概括为三个关键特性:一致性、可控性、高精度。这(zhei)三个特(te)性是工业(ye)化AI作为(wei)实用(yong)工具不可或缺的(de)要(yao)素。
首先,一致性意味着AI生成的内容保持风格和特征的统一。在设计两个(ge)角(jiao)色张三和李四时,他们应该各自保持独特的(de)外观,而不是随机(ji)变成王五的(de)样子(zi)。在实际应用中,许(xu)多产品(pin)依(yi)赖(lai)于(yu)提(ti)(ti)示(shi)词(ci)来启动生(sheng)成过(guo)程(cheng),一旦提(ti)(ti)示(shi)词(ci)发生(sheng)变化,生(sheng)成的(de)作品(pin)也会截然不同。
无论是文生图还(hai)是文生音乐(le),包括最近非常流行的一些创作工具,比如(ru)音乐(le),用户(hu)可(ke)能(neng)(neng)会(hui)(hui)发现,如(ru)果想要修改生成(cheng)内容的一小部分,整个作品就会(hui)(hui)变(bian)成(cheng)完全不同的另一首歌,美术可(ke)能(neng)(neng)因为(wei)提示词的变(bian)化,而(er)变(bian)成(cheng)一张全新的图,不可(ke)深(shen)度编辑细(xi)节,这在(zai)工业化应用中是不可(ke)取的。
为了解决一致性的一问题,我们采用了“行者丹炉”这一概念。
大家(jia)调(diao)侃AI都(dou)(dou)在“炼丹(dan)(dan)”,我们干脆取一(yi)(yi)个名字叫“丹(dan)(dan)炉(lu)”。我们以这(zhei)(zhei)个比喻为基础,创造了(le)“丹(dan)(dan)炉(lu)”这(zhei)(zhei)一(yi)(yi)工具,以确(que)保生成内容的(de)一(yi)(yi)致(zhi)性。通(tong)过这(zhei)(zhei)个工具,用户可(ke)以迅速利(li)用自(zi)(zi)己的(de)素材、位置(zhi)和数(shu)据标签(qian)来训(xun)练(lian)一(yi)(yi)个专属(shu)于自(zi)(zi)己的(de)AI模(mo)型(xing),无论是画风模(mo)型(xing)、人(ren)物模(mo)型(xing)、决策模(mo)型(xing)还是场景(jing)模(mo)型(xing),都(dou)(dou)能(neng)轻松实现。

例如,如果你想训练一个生成你个人肖像的模型,只需将你的照片输入系统,训练出的模型就会专门生成你的肖像,无论是站立、坐着还是躺着的姿势;如果你想要模仿梵高的画风,那么生成的作品就会具有梵高的风格;如果你偏好二次元风格,那么结果也会相应地呈现二次元特色。通过这样的工具,我们不仅确保了一致性,还提高了可控性,使得最(zui)终生(sheng)成的(de)效果能(neng)够(gou)完全满(man)足(zu)用户的(de)具体要求。
在讨论工业化AI时,除了一致性和可控性之外,高精度也是一个关键特性。
比(bi)如一(yi)张16K的超高(gao)清(qing)的大图(tu)(tu),使用Midjourney尝(chang)试将其(qi)缩小至(zhi)4K分(fen)辨(bian)率的高(gao)清(qing)图(tu)(tu)像(xiang)可(ke)(ke)能会因(yin)为性能限制而(er)变得(de)不可(ke)(ke)行。同(tong)样,自行搭(da)建的Stable Diffusion在(zai)处(chu)理(li)这种高(gao)分(fen)辨(bian)率图(tu)(tu)像(xiang)时也可(ke)(ke)能因(yin)为显存不足(zu)而(er)崩溃(kui)。 我们的算法(fa)可(ke)(ke)以(yi)做(zuo)到16K,使其(qi)可(ke)(ke)以(yi)拿出(chu)去(qu)做(zuo)美宣、原画。
此外,生成这样一张图并非一次性完成,而是一个分阶段、多模型叠加的过程。我们不是简单地通过输入一个Prompt然后点击鼠标就生成一张图,而是通过多个模型的叠加和分批次生成,最终合成为一张完整的图像。这表明,生成式AI必须结合具体的应用场景,并且打造与工作流程紧密结合的工具,而不是依赖一个通用大模型。
根据真实客户反馈,使用这些工具的平均效率提升了3~5倍。

这并不(bu)意味着某个(ge)行业被彻底革命(ming)或(huo)替代(dai),而是(shi)(shi)使用这些工具(ju)的(de)(de)行业从业者的(de)(de)工作效(xiao)率得到了(le)显著提升(sheng)。即使是(shi)(shi)生成(cheng)(cheng)一张16K的(de)(de)大图(tu),也需要经过数天的(de)(de)多个(ge)步(bu)骤来(lai)完(wan)成(cheng)(cheng),而不(bu)是(shi)(shi)瞬间生成(cheng)(cheng)。
当前,许多客户反馈称,他(ta)们的(de)(de)(de)(de)设计师正在(zai)(zai)转变为AI工程师,每(mei)天都在(zai)(zai)训练(lian)他(ta)们自(zi)己(ji)的(de)(de)(de)(de)模型。每(mei)个(ge)人(ren)都希(xi)望(wang)拥有自(zi)己(ji)独特的(de)(de)(de)(de)画风(feng),每(mei)家公司也(ye)都不希(xi)望(wang)自(zi)家产品的(de)(de)(de)(de)设计看(kan)起来千(qian)篇一律或(huo)被指(zhi)责为抄袭。在(zai)(zai)这种情(qing)况下,人(ren)类设计师可以专注于打磨(mo)自(zi)己(ji)的(de)(de)(de)(de)风(feng)格,训练(lian)一个(ge)专属于自(zi)己(ji)的(de)(de)(de)(de)模型,使得AI成为他(ta)们个(ge)性化创作的(de)(de)(de)(de)助手。
这大致是我们在美术领域的应用逻辑。
在音乐领域,我们的工作重点可以概括为“交互式”这三个字。
交互式的核心在于可控性,我们(men)能够实现非常精细的(de)控制,如果某部分效果不尽如人意(yi),可以(yi)立即进(jin)行调整。
这种(zhong)交(jiao)互式的(de)方法(fa)涵盖了AI音乐制作(zuo)的(de)多(duo)个方面,包括作(zuo)词、作(zuo)曲(qu)、伴(ban)奏制作(zuo)以及人声合成。我(wo)们都为此(ci)开发(fa)了相(xiang)应的(de)工具,使得音乐创(chuang)作(zuo)过(guo)程不仅高效,而且可(ke)以细致调控。
以2021年世界(jie)大学生运(yun)动(dong)会的宣传歌(ge)(ge)曲(qu)为例,这(zhei)首歌(ge)(ge)曲(qu)的歌(ge)(ge)词、旋律、伴奏以及(ji)演唱部分完全由AI完成。三年前的AI音乐制(zhi)作水平,已经能够满(man)足常规的宣传和商业用途的需(xu)求,并且支(zhi)持精(jing)细的控(kong)制(zhi)和调整。
此外,我们还开发了AI智能体,也就是游(you)戏中(zhong)的Agent。
三、生成式AI如何改造教育和文旅?实时控制音乐创作,提供多模态互动体验
在(zai)讨论(lun)AI安全的同(tong)时,我们回到今天的主题,探讨生(sheng)成式AI在(zai)教育和文旅(lv)领域(yu)的应用。
在教育领域,尤其是在音乐教育方面(mian),传(chuan)统(tong)的(de)教学(xue)方法(fa)往往侧重于演奏和演唱这两个考核(he)指标。学(xue)生(sheng)通常(chang)需要(yao)演奏一首指定的(de)曲目,相(xiang)似度高则(ze)通过考核(he),否则(ze)需要(yao)回去(qu)继续练(lian)习(xi)。
然而,随着素质教(jiao)(jiao)育和美育教(jiao)(jiao)育的推广,国家的教(jiao)(jiao)学(xue)大纲开始强调音(yin)乐(le)鉴赏和音(yin)乐(le)创(chuang)作(zuo)(zuo)两部分内容。音(yin)乐(le)创(chuang)作(zuo)(zuo)对于教(jiao)(jiao)学(xue)来(lai)说是一个挑战,但有了生成式AI的帮助,我们可(ke)以快速地将其融入教(jiao)(jiao)学(xue)过程中,并且可(ke)以与国学(xue)文化相结(jie)合。
例如(ru),许多唐诗(shi)宋词(ci)原本就(jiu)是吟唱(chang)的(de),但现(xian)代人往往不(bu)知(zhi)道如(ru)何唱(chang)。利用(yong)AI,我们可(ke)以生成相应的(de)曲调,如(ru)果觉(jue)得生成的(de)旋律(lv)不(bu)够(gou)理想,AI还能够(gou)提供细粒度的(de)调整建议,从(cong)而(er)创造出千人千面的(de)旋律(lv)。孩子们可(ke)以跟着(zhe)这些(xie)旋律(lv)学唱(chang),这样既能学习音(yin)乐,又能在不(bu)知(zhi)不(bu)觉(jue)中(zhong)背诵古诗(shi)。

除了(le)音乐创作,AI还可以用于教授音乐理论知(zhi)识,如旋(xuan)律(lv)曲线的(de)绘制(zhi),AI可以根据用户(hu)绘制(zhi)的(de)线条生(sheng)成相应(ying)的(de)旋(xuan)律(lv)。
旋(xuan)律曲线的(de)绘制是(shi)音乐创作中的(de)一个重要(yao)知识(shi)点(dian),通(tong)过(guo)AI的(de)辅助(zhu),学生可以(yi)通(tong)过(guo)简单的(de)点(dian)击(ji)鼠标(biao)来体验音乐创作的(de)过(guo)程,并学习相关的(de)音乐理论知识(shi),如同头异尾(wei)、模进等概念,同时还能进行音阶和节(jie)奏的(de)训(xun)练(lian)。
在实际应用场(chang)景中(zhong),一些学(xue)校已经(jing)建(jian)立了美(mei)育教室(shi),学(xue)生可(ke)以在这样的教室(shi)中(zhong)学(xue)习音乐(le)创作和鉴赏,探(tan)索(suo)如何使音乐(le)更加悦(yue)耳(er)动听。
这(zhei)个系统不仅多次被央视报道,而且在全国范围得到了推广,包括成(cheng)都(dou)、上海、北京等地区(qu)的美术(shu)教育中也都(dou)有所应用。通过(guo)这(zhei)些(xie)创(chuang)新的教学工具和方(fang)(fang)法(fa),AI正在帮助教育者以更互动和沉浸式的方(fang)(fang)式进行教学,提高(gao)学习效率,同时(shi)也为学生带来了全新的学习体(ti)验。
什么叫交互式?交互式是指通(tong)过互动(dong)的方式进行沟通(tong)或教学,从(cong)而获得更个性(xing)化和动(dong)态的体验。
在(zai)AI音乐(le)创作的(de)例子(zi)中(zhong),交互式(shi)不(bu)仅指用户可(ke)以(yi)实时调整和(he)控制音乐(le)创作的(de)各(ge)个(ge)方(fang)面,也意(yi)味着(zhe)可(ke)以(yi)通过AI生成的(de)内容来教(jiao)育(yu)和(he)引(yin)导。例如(ru),通过一个(ge)AI生成的(de)小游戏来教(jiao)育(yu)小朋友如(ru)何应(ying)(ying)对校园霸凌。在(zai)这(zhei)个(ge)游戏中(zhong),孩子(zi)们(men)可(ke)以(yi)身临(lin)其境地体(ti)验故(gu)事情(qing)(qing)节,学习(xi)在(zai)不(bu)同(tong)情(qing)(qing)况下如(ru)何应(ying)(ying)对和(he)求助(zhu),这(zhei)样(yang)的(de)交互式(shi)体(ti)验比传统的(de)讲授方(fang)式(shi)更加生动和(he)有效(xiao)。
与(yu)世界园艺博(bo)览会的合作也(ye)是采(cai)用了类似的方(fang)法(fa)。通过(guo)AI技术,用户(hu)可以快速生(sheng)成一(yi)个包含世园会中上万种植(zhi)物信(xin)息的互(hu)动(dong)体验,每个植(zhi)物都有(you)详细的介绍,所有(you)的图像(xiang)、角色(se)、声音和交互(hu)环节都是由AI生(sheng)成的。

此外,AI还被用(yong)于与(yu)传(chuan)统文(wen)化的(de)结合(he)(he)。例如与(yu)中(zhong)(zhong)国皮(pi)(pi)影戏博物馆的(de)合(he)(he)作(zuo)案例,参(can)观(guan)者可以在博物馆中(zhong)(zhong)通(tong)过摄像头拍摄自己的(de)照(zhao)(zhao)片,AI将(jiang)根据这些照(zhao)(zhao)片生成(cheng)(cheng)个(ge)人的(de)皮(pi)(pi)影形象(xiang),并允许用(yong)户(hu)在皮(pi)(pi)影戏的(de)虚拟世界中(zhong)(zhong)进行互动。这种体验不仅增强了对传(chuan)统文(wen)化的(de)了解,还通(tong)过AI的(de)实时(shi)生成(cheng)(cheng)技术,让(rang)每次(ci)的(de)体验都是独一无二(er)的(de)。

AI技(ji)术也被应用(yong)于城市特色(se)体验的生成,如在成都(dou)可以生成以雪山为(wei)远景(jing)、成都(dou)街景(jing)为(wei)近景(jing)的文化体验,在广(guang)州可以生成小蛮腰,在上(shang)海市可以生成东方明珠。这(zhei)些体验都(dou)是可以交互(hu)的,而且(qie)随着进入博物馆的人数增(zeng)(zeng)加(jia),皮影戏(xi)中的角色(se)也会相应增(zeng)(zeng)加(jia),从而改变(bian)了传(chuan)统(tong)的沉浸式体验模式。
传统的沉浸式体验内容更新周期长,游客体验后可能就不会再次回访。但通过AI技术,可以实现快速实时的内容更新,使得每次访问都有新的体验。AI可以生成365天都不重样的沉浸式体验,每天都有新的内容和互动,极大地提升了重游价值和文化体验的深度。
AI技术(shu)与自(zi)贡宫灯(deng)会的(de)(de)(de)结合,展示了AI在多(duo)语言(yan)交(jiao)流和互(hu)动娱乐(le)方面的(de)(de)(de)应用。通过使(shi)用Agent和多(duo)样的(de)(de)(de)AIGC技术(shu),宫灯(deng)会的(de)(de)(de)AI角色不仅能(neng)(neng)够(gou)使(shi)用多(duo)国语言(yan)与观众进(jin)(jin)行(xing)(xing)对话(hua)(hua),还能(neng)(neng)驱动3D模型与观众进(jin)(jin)行(xing)(xing)互(hu)动。这些AI角色可以根据不同的(de)(de)(de)国家和地区使(shi)用相应的(de)(de)(de)语言(yan)进(jin)(jin)行(xing)(xing)交(jiao)流,不仅能(neng)(neng)进(jin)(jin)行(xing)(xing)对话(hua)(hua),还能(neng)(neng)唱(chang)歌和跳舞,为观众提供丰富的(de)(de)(de)多(duo)模态(tai)体验。
例如(ru),如(ru)果今天(tian)要感谢“智东西”和“智猩(xing)猩(xing)”的邀(yao)请,只需将这两个名字输入AI系统(tong),AI形象(xiang)便可以根(gen)据输入进行相(xiang)应的表(biao)演(yan)。
这些都是AI技术具体落地的应用场景,体现了交互式多模态体验的潜力。
此外,AI技术在文旅场景(jing)(jing)中(zhong)的(de)应用也非常广(guang)泛(fan)。在许多文旅景(jing)(jing)点,由于人多,找(zhao)到(dao)一个好的(de)拍照位置并不容易,而且晚上的(de)灯(deng)会等(deng)场景(jing)(jing)虽然景(jing)(jing)色迷人,但拍摄人物照片(pian)(pian)时往往因为光线问题导致面部暗淡。AI写真打卡功(gong)能(neng)可以轻(qing)松解(jie)决(jue)这(zhei)一问题,它不仅(jin)能(neng)够美化照片(pian)(pian)背(bei)景(jing)(jing),还能(neng)提升(sheng)人物形(xing)象的(de)亮度和(he)清晰度。
AI技术(shu)还可以(yi)用于生成与植物相结(jie)合的抽象(xiang)画,这些(xie)(xie)画作在现实中很难拍摄出(chu)来,但(dan)通过AI的生成能力,用户(hu)可以(yi)创(chuang)造出(chu)独特的艺术(shu)效果(guo)。更进一步,如(ru)果(guo)现场有(you)打印机,观(guan)众可以(yi)将这些(xie)(xie)AI生成的画作打印出(chu)来并带回家,极大地增强了参观(guan)体验。
以上是尹学渊演讲内容的完整整理。