智东西(公众号:zhidxcom)
作者 | GenAICon 2024
2024中国生成式AI大会于4月18-19日(ri)在北京举行,在大会第二(er)天(tian)的主会场AIGC应用专(zhuan)场上,DeepMusic CEO刘晓(xiao)光以《AIGC如何赋能(neng)音乐(le)创作与(yu)制作》为题(ti)发表演讲(jiang)。
刘晓光系统性(xing)复盘了当前音乐(le)商业格局,包括(kuo)不同音乐(le)用户群体(ti)的特征与主(zhu)要使用产品、相关音乐(le)公司的商业获利模式。
他提到当前音乐商业格局主要面向泛音乐爱好者的听歌及浅度实践用户的唱歌消费体验,中间有1亿以上活跃音乐人、音乐实践者群体的(de)需求尚未得到(dao)好(hao)的(de)产品满足(zu);同时音乐制作流程长、门槛高,这使得音乐AIGC技术(shu)有用武之(zhi)地。
音乐创作与制作本身具备一定的专业性门槛,非专业人士很难借助音乐来表达自我,AIGC的发展为音乐创作带来了另一种可能性。刘晓光不仅详细回顾了音乐生产工具的40年演变历程以及其中三个关键阶段,并对近期多个爆款AI音乐生成产品进行推演,解读其背后采用的技术方案。
刘晓光深入讲解了音频模型、符号模型两类AI音乐模型所涉及的工作原理、训练数据及算法技术,并就跨平台一站式AI音乐工作站“和弦派”的(de)(de)(de)设计逻辑进行分(fen)享。“和弦派”以更直(zhi)观的(de)(de)(de)功能谱呈现音(yin)乐(le)(le)创(chuang)作(zuo)部分(fen)信息(xi),解决音(yin)乐(le)(le)中歌词、旋(xuan)律、伴奏等不同模态之间沟(gou)通困难的(de)(de)(de)问题(ti),实现跨(kua)PC、手机平(ping)台的(de)(de)(de)音(yin)乐(le)(le)创(chuang)作(zuo)、制作(zuo)体验。
他认为音乐产业明年就能实现自然语言生成高品质伴奏的功能,只需上传30秒人声素材,就能生成用自己声音演唱的歌曲。未来,DeepMusic也会通(tong)过积(ji)累的精(jing)细化标注(zhu)数据,实(shi)现对音(yin)频模(mo)型的精(jing)细化控制。
以下为刘晓光的演讲实录:
我们公(gong)司专注于音(yin)乐AIGC技术(shu),因(yin)此,基(ji)于在(zai)(zai)此领域的(de)专业(ye)认知,我们将与(yu)大家探讨以下几个方(fang)面:行业(ye)现状、AIGC对音(yin)乐行业(ye)的(de)潜在(zai)(zai)影响、AIGC在(zai)(zai)音(yin)乐数据与(yu)技术(shu)方(fang)面的(de)应用(yong),以及未来发展(zhan)趋势。
一、音乐商业格局:泛音乐爱好者月活达8亿,头部企业极度集中
我们先(xian)来了解一下音乐行业的整体情(qing)况。
音乐行业最外圈的群体是泛音乐爱好者,他们主要通过听歌来体验音乐,使用的主要产品包括酷狗音乐、QQ音乐和网易云音乐等。根据上市公司的数据显示,这一群体的月活跃用户大约达到8亿人。
泛音(yin)乐(le)爱好者是音(yin)乐(le)行业(ye)中最广泛参(can)与的(de)(de)群体之一(yi)。出于对音(yin)乐(le)的(de)(de)兴趣,部(bu)分(fen)听(ting)歌人会参(can)与一(yi)些与音(yin)乐(le)相关的(de)(de)实(shi)践活(huo)动,例如,最浅的(de)(de)音(yin)乐(le)实(shi)践就是唱K和观(guan)看(kan)音(yin)乐(le)演(yan)出,主要使(shi)用(yong)全民K歌等产品。
在中度实践阶段,我们通常会使用一些产品,例如苹果系统预装软件酷乐队和安卓应用商店中的完美钢琴。完美钢琴在安卓应用商店的下载量可能接近1亿次,但其留存率却相对较低。这表明,中度实践用户开始对音乐产生需求,但目前市场上的产品并不能完全满足他们的需求。

接下来是深度实践用户,主要涵盖15至30岁的年轻人和50岁以上的中老年人。其中,约15%的年轻人已经参与音乐类兴趣社团,而约15%的中老年人参与了中老年合唱团等兴趣社团。这些用户逐渐表现出创作的意愿,预计规模大约为2000万人。我们将这些积极从事音乐实践的人群统称为音乐实践者。
从音乐实践者进一步升级,则为音乐人。国内音乐人总数约为100万。这一群体主要来自腾讯、网易以及抖音等平台,主要从事创作和表演活动。作为音乐人,他们至少发布过1首原创作品。大多数音乐人(ren)并(bing)非经过传统的专业音乐教(jiao)育培(pei)养而成,而是(shi)通过职(zhi)业培(pei)训(xun)学校获得技能(neng),传统音乐教(jiao)育并(bing)不(bu)为数字音乐行业提供(gong)人(ren)才。
音乐(le)人创作(zuo)时使(shi)用的软(ruan)件很有意思,比如作(zuo)词用Word,作(zuo)曲用录音机,我们可能也觉得(de)用这些软(ruan)件制作(zuo)音乐(le)有些奇怪,我们清楚不可能用录音机做出(chu)咱们平时听的高(gao)质量(liang)音乐(le)作(zuo)品。
还有一个群体被称为音乐制作人。这些(xie)人(ren)通常是从(cong)音乐(le)人(ren)逐渐晋升而来(lai),他(ta)们(men)需(xu)要(yao)(yao)经(jing)过(guo)多(duo)年的(de)(de)制作经(jing)验才能胜(sheng)任(ren)。他(ta)们(men)的(de)(de)主(zhu)要(yao)(yao)任(ren)务是将音乐(le)人(ren)提(ti)供的(de)(de)音乐(le)录音Demo进(jin)行制作。在(zai)这个(ge)过(guo)程中,常见的(de)(de)音乐(le)制作软件包(bao)括雅马哈公司的(de)(de)Cubase和苹果(guo)公司的(de)(de)Logic Pro,它们(men)是目(mu)前主(zhu)流的(de)(de)音乐(le)制作工具,通常运行在(zai)个(ge)人(ren)电脑上。然而,这些(xie)软件上手门(men)槛极其高。

音乐人群是这样的,那商业是怎么发展的呢?
在(zai)这(zhei)个领域(yu),我们(men)可以看到唱片公(gong)司(si)、经纪(ji)公(gong)司(si)等行(xing)业(ye)参与(yu)者。他们(men)的(de)(de)主(zhu)要任务是签(qian)约头部音乐(le)(le)制作(zuo)人,并从音乐(le)(le)人那里获取原创歌(ge)曲,然后将(jiang)这(zhei)些歌(ge)曲制作(zuo)并发布到主(zhu)要的(de)(de)音乐(le)(le)平台,如腾讯音乐(le)(le)、网(wang)易云音乐(le)(le)等。
这些平(ping)台是这个行业的甲方公司,其(qi)年(nian)收入(ru)约(yue)(yue)为(wei)500亿(yi)人民(min)币。其(qi)中,约(yue)(yue)35%的收入(ru)来(lai)自(zi)(zi)会(hui)员费(fei),即(ji)用户(hu)每(mei)年(nian)支付(fu)的订阅费(fei)用,已经超过亿(yi)人;另外(wai)55%的收入(ru)则来(lai)自(zi)(zi)用户(hu)产(chan)生的娱乐消费(fei),还有10%来(lai)自(zi)(zi)广(guang)告。
这500亿的终端收入(ru)中(zhong),大约有100亿会被(bei)分配给音(yin)(yin)乐创作者(zhe)和唱片公司。而唱片公司则(ze)通(tong)过播放占比分成的方式来分配收入(ru),即根据某首歌的播放量在中(zhong)国整体音(yin)(yin)乐听(ting)众(zhong)中(zhong)的占比来确定分成比例。
音乐产业是一个极度头部集中的(de)(de)行业,以周(zhou)杰伦(lun)的(de)(de)播放占(zhan)比为(wei)例,其歌(ge)(ge)曲(qu)在中国整体音乐(le)市场中的(de)(de)占(zhan)比为(wei)5.6%。这意味着大约每20个(ge)(ge)人(ren)中就有1个(ge)(ge)在听周(zhou)杰伦(lun)的(de)(de)歌(ge)(ge)曲(qu)。
我认为外圈的音(yin)乐商(shang)业是头部集中的,商(shang)业模式(shi)已经(jing)相对(dui)成熟(shu)或者问题已经(jing)基本(ben)得到解(jie)决。
二、AIGC打破音乐制作高成本限制,音频模型引领音乐生产工具3.0时代
AIGC的主要目标是解决音乐领域中的中间环节问题。
我们注意到,在中级阶段的音乐实践者中,缺乏适合他们进行交互式学习和成长的优质产品。而对于深度实践者,也缺乏能够帮助他们提升技能的优秀软件。音(yin)(yin)(yin)乐人在创作音(yin)(yin)(yin)乐时使(shi)用Word和录音(yin)(yin)(yin)机可(ke)能(neng)存(cun)在一(yi)些问题(ti)。即(ji)使(shi)他(ta)们用这些工具创作出(chu)作品,交给(ji)音(yin)(yin)(yin)乐制(zhi)作人后,仍需要大(da)量的重复工作才(cai)能(neng)进一(yi)步处(chu)理。
我们认为,AIGC音乐领域的目标,实际上是服务大约全球总人口的10%的音乐实践者。
可以发(fa)现,尽管中(zhong)国(guo)可能(neng)有30%到40%的(de)孩子在小(xiao)学(xue)(xue)时学(xue)(xue)习(xi)音乐(le)(le),但为(wei)什么他们大后和(he)(he)音乐(le)(le)商业(ye)所需(xu)的(de)人才不匹(pi)配呢?这是(shi)因为(wei)在我们的(de)音乐(le)(le)教育(yu)中(zhong),更注重的(de)是(shi)基础(chu)乐(le)(le)理知识、唱和(he)(he)声、曲式分析以及器乐(le)(le)培训等,这些最终(zhong)会(hui)让(rang)学(xue)(xue)生变成演奏(zou)机(ji)器。
然而,在(zai)真正(zheng)的(de)(de)音乐(le)实践(jian)、娱乐(le)和(he)商业环境中,所需的(de)(de)是作词、作曲(qu)、编曲(qu)、录(lu)音、演唱(chang)以及后期处(chu)理等音乐(le)生产过程的(de)(de)技能。作词和(he)作曲(qu)相对容易理解,编曲(qu)称(cheng)作伴奏。
伴奏是指歌曲(qu)中(zhong)的声音(yin),如(ru)鼓、吉(ji)他、贝(bei)斯等乐器。要(yao)想(xiang)精(jing)通编曲(qu),需(xu)要(yao)克服(fu)的门(men)槛(jian)非常(chang)高。现在,如(ru)果我(wo)有音(yin)乐兴趣(qu),想(xiang)要(yao)将其实现成一个成品,就会发(fa)现,这个过程既(ji)困难又昂贵,而且进展缓慢。
接(jie)下来,我(wo)将分(fen)享一下音乐生产工具在过去40年(nian)中的演变。

首先是2000年以前,即音乐生产工具1.0时代,几乎所有(you)(you)的(de)音乐制作(zuo)都依赖硬件录音,那时的(de)音乐作(zuo)品很(hen)有(you)(you)情(qing)调,因为只(zhi)有(you)(you)最专业的(de)音乐人才有(you)(you)机会参(can)与(yu)录音过程。
第二个阶段,音乐生产工具2.0时代。苹果、雅马哈(ha)、Avid几家(jia)公司推出(chu)了一个软(ruan)件——数字(zi)音(yin)乐工作站(zhan),这种(zhong)软(ruan)件在(zai)电脑(nao)上(shang)运行(xing),门槛极高,但功(gong)能却十分强大,能够(gou)模拟钢琴、吉他等传(chuan)统(tong)乐器的声音(yin),在(zai)电脑(nao)上(shang)使用MIDI和(he)采(cai)样器。
MIDI是(shi)一种(zhong)按时序记(ji)录(lu)声音(yin)(yin)高低的数字协议,比如我在(zai)3分零(ling)626秒弹奏了一个音(yin)(yin)符,它会(hui)记(ji)录(lu)这个音(yin)(yin)符的音(yin)(yin)高和时刻(ke)。通过记(ji)录(lu)一系列这样的数据,最终可(ke)以(yi)用(yong)电脑(nao)合成(cheng)出完整的音(yin)(yin)乐(le)作品。
进入2.5时代,音乐(le)(le)产(chan)业经(jing)历了一次(ci)重大(da)变(bian)革。腾(teng)讯音乐(le)(le)娱乐(le)(le)集团推(tui)动了音乐(le)(le)娱乐(le)(le)的商业化,使得这个(ge)行业的收入(ru)达到了500亿,并让(rang)音乐(le)(le)人(ren)真正能够赚到钱。
与此(ci)同时,音乐生(sheng)产(chan)工具也(ye)逐渐实(shi)现了(le)移动(dong)化。例如(ru),有一种工具可以(yi)在电脑和(he)手机上使用,并且功能也(ye)变(bian)得越(yue)来(lai)越(yue)强大。同时,可以(yi)利用AI生(sheng)成(cheng)数字化的信号。
正在到来的就是音乐生产工具3.0——音频模型,这类工具类似于语(yu)音的TTS模(mo)型。
在音乐领域,AI的生产方向大致可以分为两类:音频方案和音乐符号方案。
在音频方(fang)案中,我们(men)公司(si)于2018年开始(shi)专(zhuan)注于音乐AI。当时音频模型(xing)尚未成熟(shu),基本上是通过(guo)将数以百万计(ji)的歌(ge)曲进(jin)行标(biao)记,并(bing)将自然语(yu)言模型(xing)与(yu)音频模型(xing)对应起来,以便通过(guo)一些Prompt来生(sheng)成音频。
在那个时期,由于音频(pin)模型尚未(wei)成熟,大多数AI公司致力(li)于音乐符(fu)号方(fang)案(an)。
音(yin)乐(le)符(fu)(fu)号方案(an)的(de)核(he)心思想是从我们平时听(ting)到的(de)歌(ge)曲中提取(qu)音(yin)乐(le)信息(xi),包括歌(ge)词、旋律、演(yan)唱方式、和弦(xian)进程(cheng)、使(shi)用的(de)乐(le)器以及乐(le)器的(de)音(yin)色等(deng),然(ran)后对这(zhei)些(xie)信息(xi)进行数(shu)字化标注。通过(guo)对这(zhei)些(xie)音(yin)乐(le)符(fu)(fu)号进行训练,可(ke)以生成新的(de)音(yin)乐(le)符(fu)(fu)号。最后,通过(guo)传统的(de)音(yin)乐(le)制作流程(cheng),将这(zhei)些(xie)音(yin)乐(le)符(fu)(fu)号渲染成音(yin)频。
这(zhei)个过程涉(she)及到三个主要技术(shu)领域:首先是(shi)(shi)音(yin)乐(le)(le)信息(xi)提取(qu)技术(shu),通常用于听歌(ge)识曲(qu)等功能;其次是(shi)(shi)AI作词、AI作曲(qu)、AI编(bian)曲(qu)等技术(shu),用于生成音(yin)乐(le)(le)符(fu)号;最终,将符(fu)号转化(hua)为音(yin)频的(de)过程,就是(shi)(shi)以往(wang)数字音(yin)乐(le)(le)工作站所做的(de)工作。
三、推演爆款音乐生成产品的技术方案,打造一站式音乐工作站
最近大家可能注意到Suno和Udio等产品频繁出现在屏幕上,但实际上技术突破来自于MusicLM和MusicGen。
这(zhei)两(liang)者(zhe)是(shi)(shi)最早能(neng)够通(tong)过(guo)自然语言与音(yin)频(pin)进行对位(wei),并逐帧生(sheng)成音(yin)频(pin)的技术,这(zhei)是(shi)(shi)一种颠覆性的进展(zhan),首(shou)次出(chu)现在前(qian)年(nian)年(nian)底到去(qu)年(nian)年(nian)初(chu)。而后出(chu)现的Suno和Udio则(ze)采用了(le)音(yin)频(pin)方案,如网易天(tian)音(yin),还有例如天(tian)工SkyMusic,他们采用的是(shi)(shi)符号方案。

音(yin)频方案和(he)符号方案各有特点(dian)。音(yin)频方案是端到端模型(xing),使得生(sheng)成的音(yin)乐(le)听起来(lai)更贴近真(zhen)实(shi)、完(wan)整,融合度更高。而符号模型(xing)则能够(gou)控制生(sheng)成内容的各个方面。我们认为未(wei)来(lai)这两种(zhong)模型(xing)会融合发(fa)展。
MusicLM和MusicGen大(da)致能够(gou)生(sheng)成(cheng)的(de)自然语言Prompt背景(jing)音乐作品(pin),会有(you)一个显著的(de)前景(jing)旋(xuan)律,这(zhei)对于推断它们(men)的(de)技(ji)术(shu)实现方式将会非(fei)常有(you)帮助,能判断出这(zhei)些(xie)作品(pin)都是基(ji)于音频(pin)(pin)方案(an)生(sheng)成(cheng)的(de)结果。符号(hao)方案(an)生(sheng)成(cheng)的(de)音频(pin)(pin)听起来可能音质更高(gao),但伴奏和人声的(de)融合程度没那(nei)么好,纯BGM大(da)概就是这(zhei)种效果。
符号方案和音频方案使用了不同的技术栈。
在我(wo)们的(de)(de)符(fu)号方(fang)案中,我(wo)们采用(yong)了领先的(de)(de)算(suan)法。我(wo)们使用(yong)一个标(biao)注工具来处理数据(ju)。以大家耳熟能(neng)详的(de)(de)《七里(li)香(xiang)》为例(li),在我(wo)们的(de)(de)标(biao)注工具中,顶(ding)部的(de)(de)蓝(lan)色(se)波(bo)形(xing)代表音频(pin)文(wen)件,我(wo)们需(xu)要标(biao)注其中的(de)(de)关键乐(le)理信息。

首先,自(zi)动(dong)识别出这(zhei)些蓝(lan)色线,将它们(men)与上(shang)方的(de)11、12、13小(xiao)节线对(dui)齐;接下来,标注旋(xuan)律、歌(ge)词(ci)、和弦、段(duan)落(luo)以(yi)及调式(shi)等音乐中(zhong)重(zhong)要的(de)乐理信息(xi);一旦完成(cheng)了这(zhei)些标注,就(jiu)(jiu)可(ke)以(yi)使用单模态生(sheng)成(cheng)旋(xuan)律,生(sheng)成(cheng)旋(xuan)律和歌(ge)词(ci)的(de)对(dui)位,或者根据(ju)输入的(de)歌(ge)词(ci)生(sheng)成(cheng)伴奏和旋(xuan)律。有了大(da)量这(zhei)样的(de)数据(ju),我们(men)就(jiu)(jiu)可(ke)以(yi)开发出生(sheng)成(cheng)式(shi)AI模型。
由于音频方案(an)的(de)火爆产(chan)品并未公(gong)开(kai)其具体实现(xian)方式(shi),我们(men)通过大(da)量实验进(jin)行推测(ce),和大(da)家分享我们(men)对(dui)AI和音乐结合的(de)认(ren)知(zhi)。我们(men)认(ren)为这种(zhong)生产(chan)方式(shi)颠(dian)覆了我们(men)对(dui)智能技(ji)术的(de)认(ren)知(zhi)。
最近,音频模型(xing)产品火了起(qi)来(lai)。我们(men)看到这些产品的体验大致是这样的:输入(ru)一段歌词和一些Prompt,就(jiu)能生成完整音乐。
根据(ju)我们的(de)(de)(de)(de)推断,它(ta)的(de)(de)(de)(de)算法可能是这(zhei)样的(de)(de)(de)(de):首(shou)先,有了(le)一批(pi)音乐(le)数据(ju),同时(shi)标注了(le)对应的(de)(de)(de)(de)歌(ge)词。这(zhei)种(zhong)数据(ju)在(zai)QQ音乐(le)等(deng)平台上都(dou)可以直接获取(qu)。另外,现在(zai)已经(jing)有一项成熟的(de)(de)(de)(de)技术叫做人(ren)声伴奏(zou)分(fen)(fen)离,可以将音频(pin)中的(de)(de)(de)(de)人(ren)声和伴奏(zou)分(fen)(fen)离开来。
现场演示的人声(sheng)里(li)带有和声(sheng)。在训(xun)练时,我现在只看到前(qian)三行(xing),大概(gai)是将音(yin)频(pin)进(jin)行(xing)切片,然(ran)后通(tong)过一个分离的BGM和其中(zhong)标注的歌词来生成(cheng)最终完整(zheng)的音(yin)乐。这是模(mo)型大概(gai)的工作(zuo)原(yuan)理。
因此,我们(men)最终看(kan)到(dao)的(de)是,输入(ru)一个Prompt,它(ta)会从(cong)一个BGM库中找到(dao)与之最匹配的(de)音(yin)(yin)频片段(duan),然后根据输入(ru)的(de)歌(ge)词(ci)或者想(xiang)要的(de)乐(le)器,在原始音(yin)(yin)频上叠加一个人声模型(xing)。它(ta)们(men)对音(yin)(yin)乐(le)的(de)理解(jie)与我们(men)不太一样,它(ta)们(men)将音(yin)(yin)乐(le)理解(jie)为一个人听着伴奏,朗(lang)读歌(ge)词(ci)的(de)TTS模型(xing)。整(zheng)个过(guo)程是一个端到(dao)端的(de)模型(xing),所以在整(zheng)个音(yin)(yin)乐(le)中,伴奏和人声的(de)融合效(xiao)果(guo)非(fei)常(chang)好。
四、一站式低门槛音乐创编软件“和弦派”:解决可控性、兼容性、跨平台三大挑战
我刚刚分享了一下音乐行业的整体情况,以及音频模型、符号模型等的大致工作原理。现在我想分享一下我们自己的产品,叫做“和弦派”。它(ta)是一(yi)个移动端一(yi)站式的(de)低门(men)槛音乐(le)创(chuang)编软件,AI在(zai)其中发挥了很大的(de)作用。我们希望通过这个产(chan)品解决几个问题。
第一,我们希望AI是可控的。但是(shi)(shi)在(zai)音(yin)乐中,我们(men)重新定义了控(kong)(kong)制的(de)方(fang)式。例如(ru),我们(men)现在(zai)谈论如(ru)何描(miao)述音(yin)乐知(zhi)识(shi),大多(duo)数人可能首先想到的(de)是(shi)(shi)五线谱。然而,五线谱是(shi)(shi)两(liang)百年前的(de)产物,当时还没有(you)留声机。五线谱的(de)目的(de)是(shi)(shi)记录音(yin)乐应该如(ru)何演奏,而不是(shi)(shi)现在(zai)流行音(yin)乐中常见的(de)记录方(fang)式。我们(men)希望音(yin)乐有(you)一种更(geng)直观的(de)控(kong)(kong)制方(fang)式。
第二,过去我们在创作音乐时,可能会用Word来写歌词,用录音机来录制曲子。我们希望能够将这些功能整合到一个平台上,实现一站式的音乐创作体验。另外,在制作人(ren)和音乐人(ren)这(zhei)个行业(ye),每个人(ren)购买(mai)的(de)音源(yuan)可能(neng)不(bu)同,这(zhei)就导致(zhi)了互(hu)相之(zhi)间的(de)工程(cheng)文件无法兼(jian)(jian)容(rong)的(de)问题(ti)。我们希望(wang)能(neng)够解(jie)决这(zhei)个问题(ti),让(rang)不(bu)同音源(yuan)之(zhi)间的(de)工程(cheng)文件能(neng)够互(hu)相兼(jian)(jian)容(rong)。
第三,我们希望能够在手机上完成创作音乐这件事(shi)情,而不(bu)是打(da)开电脑。然(ran)而,在(zai)手机上进行音乐创作(zuo)(zuo)确实存在(zai)很(hen)大的困(kun)难。例如,在(zai)安(an)卓系统(tong)下,实际上没有一个(ge)很(hen)好的音频引擎(qing)来支持这项开发工作(zuo)(zuo)。因此,我(wo)们花了很(hen)多时间去开发跨平(ping)台(tai)的音频引擎(qing),以(yi)解(jie)决这个(ge)问题。
我们的(de)整体(ti)设计思路(lu)如(ru)下,这是(shi)(shi)音乐功(gong)能(neng)(neng)谱(pu)。首先,我们意识到这个产品并不是(shi)(shi)面向全(quan)人类的(de),而是(shi)(shi)针对人类中(zhong)大约10%的(de)用户。功(gong)能(neng)(neng)谱(pu)基本上是(shi)(shi)音乐爱好者需要(yao)了(le)解(jie)的(de)内容,其中(zhong)包括段落和(he)和(he)弦,告(gao)诉乐手如(ru)何演奏;还包括旋律和(he)歌(ge)词(ci),告(gao)诉歌(ge)手如(ru)何演唱。

流(liu)行音乐(le)并不那(nei)么复杂,通常只包含一(yi)个(ge)(ge)伴(ban)奏和(he)一(yi)个(ge)(ge)人声(sheng)。人声(sheng)部分由(you)数字(zi)表示,例(li)如(ru)“Do、Re、Mi、Do、Re、Mi”,并附带歌词,以指导(dao)歌手(shou)的演唱。而剩(sheng)下的段落和(he)和(he)弦则指导(dao)所有乐(le)器如(ru)何演奏。简而言之,就是(shi)这两部分构(gou)成(cheng)了(le)音乐(le)功能谱。
我们通过创作功能谱或者采用其他方法呈现,创造了音乐。将功能谱转化为声音,这是音乐创作;将功能谱变成我们能听到的音乐,这是音乐制作。这个过程最终形成了我们的产品——和弦派。
在(zai)和弦(xian)派中,我们提供了一(yi)个功能(neng)谱的编辑页面。你可(ke)以(yi)随意输(shu)入和弦(xian)、旋律和歌词。通过AI辅助(zhu)编曲(qu)功能(neng),你可(ke)以(yi)生成(cheng)伴奏;通过AI的歌声(sheng)合成(cheng)功能(neng),你可(ke)以(yi)让这些输(shu)入内(nei)容(rong)被(bei)演唱(chang)出来。
借助(zhu)大(da)量的词、曲和(he)(he)和(he)(he)弦对位数(shu)据(ju),我们能(neng)实现(xian)旋律(lv)生(sheng)成和(he)(he)弦、和(he)(he)弦生(sheng)成旋律(lv)等功能(neng)。这意味着你可以输入一(yi)段歌(ge)词,我们就能(neng)为(wei)你生(sheng)成一(yi)首完(wan)整的歌(ge)曲;或者,你哼(heng)唱一(yi)段旋律(lv),我们能(neng)为(wei)你配上和(he)(he)弦和(he)(he)伴奏(zou)。这一(yi)切都可以在一(yi)个软件中一(yi)站式完(wan)成。
针对(dui)(dui)不同的(de)(de)用户(hu),我们(men)(men)提供(gong)了(le)(le)各种交互式体验。例如,对(dui)(dui)于中(zhong)度(du)实践用户(hu),基于大(da)型(xing)语言模型(xing)的(de)(de)理解能(neng)(neng)力,能(neng)(neng)生(sheng)成(cheng)歌(ge)(ge)词,并根据这(zhei)些歌(ge)(ge)词生(sheng)成(cheng)音乐的(de)(de)其他信息;对(dui)(dui)于深度(du)实践用户(hu),他们(men)(men)通常(chang)已经(jing)理解了(le)(le)和弦的(de)(de)概(gai)念(nian),但(dan)可(ke)能(neng)(neng)对(dui)(dui)和弦的(de)(de)具体细节(jie)不够了(le)(le)解;对(dui)(dui)于更深度(du)的(de)(de)音乐人(ren),他们(men)(men)可(ke)以(yi)编辑所有的(de)(de)和弦,调整(zheng)音高,并修(xiu)改歌(ge)(ge)词,以(yi)快速创建所需的(de)(de)BGM。
我(wo)们可(ke)以关闭吉(ji)他轨道,换成电吉(ji)他,并调整演奏方式,即使不(bu)懂(dong)吉(ji)他也能自(zi)由(you)创作。我(wo)们已(yi)经(jing)有许多(duo)用(yong)户通过这种(zhong)方式制作出了(le)不(bu)错的作品,其(qi)中有些甚至(zhi)深(shen)深(shen)打动了(le)我(wo)。
我们的整(zheng)体产(chan)品都能在(zai)一个手(shou)机(ji)(ji)软件里一站式(shi)输出。我们坚定地致力于移动端产(chan)品,因(yin)为(wei)我们相信许多00后(hou)和05后(hou)的孩子并不太习(xi)惯使用(yong)电脑。我们预见未来(lai)的音乐制作大部分(fen)流程都将在(zai)手(shou)机(ji)(ji)上完成。只有在(zai)最后(hou)需要进行(xing)精细调整(zheng)时,才会(hui)转移到电脑上进行(xing)。
五、2025或实现AI生成伴奏,上传30秒人声就能用自己声音演唱歌曲
让我们来谈谈我们对(dui)音乐产业未来发展的看法。
首先,我们认为在音乐消费端,AI和大数据等技术的发展不会带来太大的变化。因为音乐行业(ye)本身就是一个供大(da)于求的(de)行业(ye),AI的(de)出现虽然提高(gao)了(le)生(sheng)产效率(lv),但并不会对(dui)行业(ye)生(sheng)态造成巨大(da)的(de)影响。然而(er),在音乐生(sheng)产端,我们相(xiang)信将会有越来越多的(de)人参与(yu)其(qi)中(zhong),进行实(shi)践,从中(zhong)获得乐趣。

新的音频模型(xing)可(ke)(ke)(ke)以(yi)通过一个简单(dan)的Prompt生成出完整的BGM,而TTS模型(xing)可(ke)(ke)(ke)以(yi)生成完整的歌(ge)(ge)曲。接(jie)下来(lai),我们可(ke)(ke)(ke)以(yi)预(yu)见(jian),人们将能(neng)够自(zi)己制作个性化的BGM,并在其上填写歌(ge)(ge)词。每一句歌(ge)(ge)词都可(ke)(ke)(ke)以(yi)重新编(bian)辑,例如,如果觉得(de)第二句不(bu)够理想,就可(ke)(ke)(ke)以(yi)重新编(bian)写。
与(yu)此同时(shi),音量调整也将变得更加灵活(huo)。我们(men)相信(xin),在今年年底,不止(zhi)一家公(gong)司将推出这样的(de)产品(pin)。到那时(shi),音乐制(zhi)作(zuo)过程将变得更加普及化。音乐人们(men)可(ke)能会(hui)首先选择(ze)一个(ge)自己喜欢的(de)BGM,然后利(li)用语言模型(xing)为歌词寻(xun)找灵感,并逐(zhu)句(ju)进行(xing)修改和(he)尝试。最终(zhong),他们(men)可(ke)以按(an)照(zhao)传统的(de)录音和(he)音乐制(zhi)作(zuo)工作(zuo)流程完成作(zuo)品(pin),并进行(xing)发布(bu)。
明年大概就能实现自然语言生成伴奏的功能,而且音质应该也会相当不错。你只需上传大约30秒的人声素材,就能够用你自己的声音来演唱歌曲。音质会达到基本可用的水平。
到那(nei)时(shi),我(wo)们就可(ke)以摒弃传统的(de)(de)录音(yin)或者“MIDI+采样器”的(de)(de)工作流(liu)程,转而使用(yong)“BGM+歌词(ci)”的(de)(de)输入方式。我(wo)们只需要进行简单(dan)的(de)(de)粗颗粒度修改,利(li)用(yong)音(yin)频模型调整音(yin)乐,直到满(man)意为(wei)止,然后就可(ke)以直接发(fa)行作品。

那(nei)时我(wo)(wo)们(men)对(dui)于音乐制作工具的理解可(ke)能(neng)会回(hui)归到(dao)我(wo)(wo)设定一首歌,包括(kuo)前(qian)奏(zou)、间奏(zou)和副歌等(deng)部(bu)分,然后(hou)在其中输(shu)入歌词(ci)。我(wo)(wo)们(men)可(ke)以(yi)将(jiang)歌曲分割成(cheng)不同(tong)(tong)的区(qu)域(yu)(yu),并(bing)在每个区(qu)域(yu)(yu)选(xuan)择不同(tong)(tong)的乐器(qi)库(ku)。用户可(ke)以(yi)通(tong)过拖拽乐器(qi)到(dao)相(xiang)应的区(qu)域(yu)(yu),并(bing)指示该(gai)乐器(qi)的演奏(zou)方式,最终就能(neng)够(gou)生成(cheng)整首音乐。
最终实现这样的(de)(de)体验,必然需要结合(he)录(lu)音(yin)(yin)、MIDI、采(cai)样器以及音(yin)(yin)频(pin)模(mo)型(xing)等技(ji)术。国内在音(yin)(yin)频(pin)模(mo)型(xing)方面可能(neng)会有一些差距,但我们坚信,对于未来面向音(yin)(yin)乐(le)人和(he)音(yin)(yin)乐(le)爱好者(zhe)的(de)(de)产品,我们所做(zuo)的(de)(de)积累毫无疑(yi)问是有意义的(de)(de)。
以上是刘晓光演讲内容的完整整理。