现有的多模态(tai)大(da)模型(xing)(MLLM)通(tong)常(chang)将(jiang)预训(xun)练的视觉(jue)编码器与大语言模型结(jie)合来(lai)实(shi)现,即模块化MLLM。最近新兴的Chameleon、EVE等原生MLLM,将(jiang)视觉(jue)感知(zhi)和多模态理(li)解直接集成到LLM中(zhong),能够更方便地(di)通(tong)过现有工具(ju)进行部署(shu),且具(ju)备更高的推理(li)效(xiao)率。
然而,由于原生MLLM缺乏视觉能力(li),但视觉预训练过程中语言基(ji)座能力(li)常常出现灾难性遗忘(wang)问题,这导致(zhi)现有原生MLLM的性能仍显著低(di)于模块化(hua)MLLM。
为此,上海人工智(zhi)能实验室通(tong)用视觉团队(dui)(OpenGVLab)联(lian)合(he)清华大(da)(da)学、上海交(jiao)通(tong)大(da)(da)学等提出了(le)全新的原生(sheng)多模态大(da)(da)模型Mono-InternVL。该(gai)模型采用增量(liang)预训练方法,解决了(le)此前原生(sheng)MLLM中的灾难(nan)性遗忘问题(ti)。与非原生(sheng)模型相比,Mono-InternVL首个单(dan)词延迟能(neng)够降(jiang)低67%,且在(zai)多个评测数(shu)据集上均达到了(le)SOTA水准。

相比于(yu)(yu)现有多模(mo)(mo)态(tai)大(da)模(mo)(mo)型(xing)(xing),Mono-InternVL无需(xu)额外的视觉编码器,通过内嵌视觉专家(jia)打通了一条从(cong)大(da)语言模(mo)(mo)型(xing)(xing)到原生多模(mo)(mo)态(tai)模(mo)(mo)型(xing)(xing)扩(kuo)展的新(xin)路径(jing),且2B模(mo)(mo)型(xing)(xing)多模(mo)(mo)态(tai)能力(li)优于(yu)(yu)7B参数(shu)的现有原生多模(mo)(mo)态(tai)模(mo)(mo)型(xing)(xing),多个指标超越了InternVL1.5。
Mono-InternVL兼具了视(shi)觉灵活性和(he)部署高(gao)效性,支持高(gao)达(da)2M像素输入的(de)动态图像分(fen)辨率,在原生多(duo)模态架(jia)构中感(gan)知(zhi)精度(du)最高(gao)。相(xiang)比于InternVL1.5,在部署框架(jia)上首个单词延迟最多(duo)降(jiang)低67%,整体吞吐量提高(gao)31%。

11月7日19点,智猩猩邀请到论文一作、上海 AI Lab OpenGVLab 博士后研究员罗根参与「智猩猩通用视觉讲座」03讲,主讲《Mono-InternVL: 突破原生多模态大模型性能瓶颈》。
讲者
罗根,上海 AI Lab OpenGVLab 博士后研究员
主 题
《Mono-InternVL: 突破原生多模态大模型性能瓶颈》
提 纲
1、模块化大模型与原生大模型对比分析
2、原生多模态大模型Mono-InternVL解析
3、原生MLLM面临的的灾难性遗忘问题
4、增量内生视觉预训练(EViP)方法
5、实验比(bi)较及模型性能(neng)展(zhan)示
直 播 信 息
直播时间:11月7日19:00
成果
论文标题
《Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training》
论文链接
//arxiv.org/abs/2410.08202
项目地址
//internvl.github.io/blog/2024-10-10-Mono-InternVL/
如何报名
有讲座直播观看需求的朋友,可以添加小助手“沐可”进行报名。已添加过“沐可”的老朋友,可以给“沐可”私信,发送“通用视觉03”进行报(bao)名。对于通过报(bao)名的朋友(you),之(zhi)后将邀请入群进行观(guan)看和交流。
