Oct, 2023

从 CLIP 到 DINO:多模式大型语言模型中的视觉编码器喊出来

TL;DR该研究通过对多模态大型语言模型(MLLMs)中不同视觉编码器的有效性进行深入调查,发现了 CLIP 的浅层特征在细粒度任务(如定位和区域理解)中具有特殊优势。同时,研究还发现没有经过文本 - 图像对齐预训练的视觉模型 DINO 在 MLLMs 中作为视觉部分展现了有希望的性能,只需为其配备一个 MLP 层进行对齐,DINO 在细粒度相关的感知任务中超过了 CLIP。基于这些观察结果,研究提出了一种简单而有效的特征融合策略,称为 COMM,它通过多层次特征融合将 CLIP 和 DINO 结合起来,以增强 MLLMs 的视觉能力。全面的实验证明了 COMM 相较于现有方法的卓越性能,展示了其在 MLLMs 中增强的视觉能力。