Oct, 2023
从CLIP到DINO:多模式大型语言模型中的视觉编码器喊出来
From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models
TL;DR该研究通过对多模态大型语言模型(MLLMs)中不同视觉编码器的有效性进行深入调查,发现了CLIP的浅层特征在细粒度任务(如定位和区域理解)中具有特殊优势。同时,研究还发现没有经过文本-图像对齐预训练的视觉模型DINO在MLLMs中作为视觉部分展现了有希望的性能,只需为其配备一个MLP层进行对齐,DINO在细粒度相关的感知任务中超过了CLIP。基于这些观察结果,研究提出了一种简单而有效的特征融合策略,称为COMM,它通过多层次特征融合将CLIP和DINO结合起来,以增强MLLMs的视觉能力。全面的实验证明了COMM相较于现有方法的卓越性能,展示了其在MLLMs中增强的视觉能力。