May, 2024

MLLMs的密集连接器

TL;DR我们引入了密集连接器——一个简单、有效且即插即用的视觉语言连接器,通过利用多层视觉特征显著增强现有的多模态大型语言模型(MLLMs),并且在仅依靠图像训练的情况下,展示了在视频理解方面的显著零样本能力。