现有的多模态(tai)大(da)模型(xing)(MLLM)通(tong)常(chang)将(jiang)预训(xun)练的视觉(jue)编码器与大语言模型结(jie)合来(lai)实(shi)现,即模块化MLLM。最近新兴的Chameleon、EVE等原生MLLM,将(jiang)视觉(jue)感知(zhi)和多模态理(li)解直接集成到LLM中(zhong),能够更方便地(di)通(tong)过现有工具(ju)进行部署(shu),且具(ju)备更高的推理(li)效(xiao)率。

然而,由于原生MLLM缺乏视觉能力(li),但视觉预训练过程中语言基(ji)座能力(li)常常出现灾难性遗忘(wang)问题,这导致(zhi)现有原生MLLM的性能仍显著低(di)于模块化(hua)MLLM。

为此,上海人工智(zhi)能实验室通(tong)用视觉团队(dui)(OpenGVLab)联(lian)合(he)清华大(da)(da)学、上海交(jiao)通(tong)大(da)(da)学等提出了(le)全新的原生(sheng)多模态大(da)(da)模型Mono-InternVL。该(gai)模型采用增量(liang)预训练方法,解决了(le)此前原生(sheng)MLLM中的灾难(nan)性遗忘问题(ti)。与非原生(sheng)模型相比,Mono-InternVL首个单(dan)词延迟能(neng)够降(jiang)低67%,且在(zai)多个评测数(shu)据集上均达到了(le)SOTA水准。

解决原生MLLM灾难性遗忘问题!上海AI Lab提出原生多模态大模型Mono-InternVL | 博士后研究员罗根讲座预告

相比于(yu)(yu)现有多模(mo)(mo)态(tai)大(da)模(mo)(mo)型(xing)(xing),Mono-InternVL无需(xu)额外的视觉编码器,通过内嵌视觉专家(jia)打通了一条从(cong)大(da)语言模(mo)(mo)型(xing)(xing)到原生多模(mo)(mo)态(tai)模(mo)(mo)型(xing)(xing)扩(kuo)展的新(xin)路径(jing),且2B模(mo)(mo)型(xing)(xing)多模(mo)(mo)态(tai)能力(li)优于(yu)(yu)7B参数(shu)的现有原生多模(mo)(mo)态(tai)模(mo)(mo)型(xing)(xing),多个指标超越了InternVL1.5。

Mono-InternVL兼具了视(shi)觉灵活性和(he)部署高(gao)效性,支持高(gao)达(da)2M像素输入的(de)动态图像分(fen)辨率,在原生多(duo)模态架(jia)构中感(gan)知(zhi)精度(du)最高(gao)。相(xiang)比于InternVL1.5,在部署框架(jia)上首个单词延迟最多(duo)降(jiang)低67%,整体吞吐量提高(gao)31%。

解决原生MLLM灾难性遗忘问题!上海AI Lab提出原生多模态大模型Mono-InternVL | 博士后研究员罗根讲座预告

11月7日19点,智猩猩邀请到论文一作、上海 AI Lab OpenGVLab 博士后研究员罗根参与「智猩猩通用视觉讲座」03讲,主讲《Mono-InternVL: 突破原生多模态大模型性能瓶颈》。

讲者

罗根,上海 AI Lab OpenGVLab 博士后研究员

罗根围绕跨媒态理解相关方向展开了一系列深入研究,在 IEEE TPAMI、IJCV、IEEE TIP、NeurIPS、CVPR、AAAI 等 CCF推荐的国际顶级期刊及会议论文上发表论文 20余篇, 6 篇论文被CVPR、ECCV和MM等顶级国际会议评为口头报告,谷歌学术总引用一千余次。第 3 讲

 主 题 

《Mono-InternVL: 突破原生多模态大模型性能瓶颈》 

提 纲 

1、模块化大模型与原生大模型对比分析
2、原生多模态大模型Mono-InternVL解析
3、原生MLLM面临的的灾难性遗忘问题
4、增量内生视觉预训练(EViP)方法
5、实验比(bi)较及模型性能(neng)展(zhan)示

直 播 信 息

直播时间:11月7日19:00

成果

论文标题
《Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training》
论文链接
//arxiv.org/abs/2410.08202
项目地址
//internvl.github.io/blog/2024-10-10-Mono-InternVL/

如何报名

有讲座直播观看需求的朋友,可以添加小助手“沐可”进行报名。已添加过“沐可”的老朋友,可以给“沐可”私信,发送“通用视觉03”进行报(bao)名。对于通过报(bao)名的朋友(you),之(zhi)后将邀请入群进行观(guan)看和交流。

解决原生MLLM灾难性遗忘问题!上海AI Lab提出原生多模态大模型Mono-InternVL | 博士后研究员罗根讲座预告