「智猩(xing)(xing)猩(xing)(xing)AI新青年讲(jiang)(jiang)座」由智猩(xing)(xing)猩(xing)(xing)出品,致力于邀请青年学者(zhe),主讲(jiang)(jiang)他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。
AI新青(qing)(qing)年(nian)是(shi)加速人工智能(neng)前(qian)沿(yan)研究的(de)(de)新生(sheng)力量。AI新青(qing)(qing)年(nian)的(de)(de)视频讲(jiang)解和(he)直播答疑,将(jiang)可以帮助(zhu)大家增进对(dui)人工智能(neng)前(qian)沿(yan)研究的(de)(de)理解,相应(ying)(ying)领域的(de)(de)专业知识(shi)也(ye)能(neng)够得(de)以积累(lei)加深。同时,通过与AI新青(qing)(qing)年(nian)的(de)(de)直接(jie)交(jiao)流,大家在AI学(xue)习和(he)应(ying)(ying)用(yong)AI的(de)(de)过程中遇到的(de)(de)问题(ti),也(ye)能(neng)够尽快解决。
「智猩猩AI新青年讲座」现已完结254讲,错过往期讲座直播的朋友,可以点击文章底部 “ 阅读原文 ” 进行回看!
近年来(lai)扩散(san)(san)模型(xing)的(de)快速发展,图(tu)像生成、视频(pin)生成、3D生成等任(ren)(ren)务取得了重(zhong)大进(jin)展。然而一个核心问题(ti)也(ye)随之浮现:如(ru)何(he)有效(xiao)(xiao)且高效(xiao)(xiao)地(di)微(wei)(wei)调预训练的(de)基础扩散(san)(san)模型(xing),并(bing)将其应用于新任(ren)(ren)务。现有的(de)微(wei)(wei)调方(fang)法(fa)可分为附加型(xing)微(wei)(wei)调方(fang)法(fa)(AFT)、重(zhong)参数(shu)化(hua)微(wei)(wei)调方(fang)法(fa)(RFT)以及选(xuan)择性微(wei)(wei)调方(fang)法(fa)(SFT)。AFT和RFT方(fang)法(fa)都需要(yao)针对不同模型(xing)进(jin)行特定设计,以及根据具体(ti)任(ren)(ren)务调整(zheng)隐藏维度或秩值。而SFT方(fang)法(fa)不仅引入了较高的(de)延迟(chi),还对参数(shu)选(xuan)择的(de)超参数(shu)敏(min)感(gan),在效(xiao)(xiao)果和训练效(xiao)(xiao)率方(fang)面表现不佳。
针对上述问题,上海交通大学在读博士胡腾联合腾讯优图实验室研究人员提出了一种新(xin)颖的(de)高(gao)效(xiao)微(wei)调方法(fa)SaRA(Sparse Low-Rank Adaptation),其(qi)专门为(wei)预训练(lian)扩散(san)模(mo)型(xing)设计(ji),现已开源(yuan)。该方法(fa)是基(ji)于渐(jian)进(jin)稀疏低(di)秩适应的(de)高(gao)效(xiao)微(wei)调,利(li)用基(ji)于核(he)范数的(de)低(di)秩损失(shi)来有(you)(you)效(xiao)防止模(mo)型(xing)过拟合,同时(shi)引(yin)入渐(jian)进(jin)训练(lian)策略,以充(chong)分利(li)用无效(xiao)参数,从而使模(mo)型(xing)在学习新(xin)知识的(de)同时(shi)不影响其(qi)原有(you)(you)的(de)泛化能(neng)力。


SaRA 的(de)(de)显(xian)著特点是其引入了非(fei)结构化反(fan)向传播策略(lve),这使得它在(zai)对扩散模(mo)型(xing)微调过程中显(xian)著减(jian)少(shao)了内存消耗。通过将可(ke)训(xun)练(lian)参(can)(can)数分(fen)离为(wei)(wei)叶节点,使得模(mo)型(xing)的(de)(de)所有参(can)(can)数梯度能够流(liu)入少(shao)量的(de)(de)可(ke)训(xun)练(lian)参(can)(can)数中,避免了为(wei)(wei)整(zheng)个参(can)(can)数矩(ju)阵保留梯度的(de)(de)需(xu)求,这大大简化了预训(xun)练(lian)模(mo)型(xing)微调的(de)(de)复杂(za)性(xing)和工(gong)作量。

SaRA不仅(jin)实现了低内存消耗,还实现了很好(hao)的(de)(de)代码集成,只需(xu)要修改一行代码即可实现高(gao)效(xiao)的(de)(de)扩散(san)(san)模(mo)型(xing)(xing)微(wei)调(diao)。结果表明(ming),SaRA相较于其他(ta)微(wei)调(diao)方(fang)法能够更好(hao)地学习(xi)到(dao)下游任务(wu)的(de)(de)知识,并(bing)最大化维护模(mo)型(xing)(xing)的(de)(de)先(xian)验(yan)信息(xi),其高(gao)效(xiao)性、简(jian)便性和实用(yong)性,不仅(jin)解(jie)决了如何高(gao)效(xiao)利用(yong)预训练扩散(san)(san)模(mo)型(xing)(xing)中(zhong)无效(xiao)参数的(de)(de)问(wen)题,还为未来在(zai)各种下游任务(wu)中(zhong)应用(yong)扩散(san)(san)模(mo)型(xing)(xing)提供了新(xin)的(de)(de)可能性。

11月27日19点,智猩猩邀请到论文一作、上海交通大学在读博士胡腾参与「智猩(xing)猩(xing)AI新青年讲(jiang)座」255讲(jiang),主讲(jiang)《扩(kuo)散模型高效微调(diao)方法SaRA与显存占用优化》。
主讲人
胡腾
上海交通大学在读博士
师从易冉助(zhu)理(li)教授,从事(shi)图像(xiang)、视(shi)频等可(ke)视(shi)媒体(ti)的内容生(sheng)成(cheng)(cheng)研(yan)究,主要研(yan)究图像(xiang)、视(shi)频可(ke)控生(sheng)成(cheng)(cheng)。 入(ru)选首届《中国电子学会(hui)-腾讯博士生(sheng)科研(yan)激励计划》。目(mu)前以第(di)(di)一(yi)作者(zhe)、学生(sheng)第(di)(di)一(yi)作者(zhe)、共同(tong)第(di)(di)一(yi)作者(zhe)在CCF A类会(hui)议或期刊上(shang)发表高(gao)水平(ping)论文8篇(pian),共计发表10篇(pian)高(gao)水平(ping)论文。
第255讲
主 题
扩散模型高效微调方法SaRA与显存占用优化
提 纲
1、现有扩散模型微调方法及局限性
2、扩散模型中无效参数分析及潜在有效性
3、基于无效参数重用的微调方法
4、通过非结构化反向传播降低微调显存
5、基础模型(xing)提升与下游任务微调
直 播 信 息
直播时间:11月27日19:00
直播(bo)地(di)点:智猩(xing)猩(xing)知识店铺(pu)
成果
论文标题
《SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-rank Adaptation》
论文链接
//arxiv.org/pdf/2409.06633
项目网站
//sjtuplayer.github.io/projects/SaRA/
报名方式
对本次讲座感兴趣朋友,可以扫描下方二维码,添加小助手米娅进行报名。已添加过米娅的老朋友,可以给米娅私信,发送“ANY255”即可报名。
我(wo)们会为审核通(tong)过的朋(peng)友推(tui)送(song)直播(bo)链接。同时,本次(ci)讲座也(ye)组建了(le)学习群,直播(bo)开始前(qian)会邀(yao)请审核通(tong)过的相(xiang)关(guan)朋(peng)友入群交流。
