Jun, 2024

通过多实例视觉提示生成器增强多模态大语言模型以实现视觉表征丰富化

TL;DR本研究探讨了多模态大型语言模型的性能,通过利用视觉适配器将视觉表示与语言模型相结合,在多个视觉语言任务中取得了最先进的表现。研究还提出了一种通用组件,名为多示例视觉提示生成器(MIVPG),通过利用图像或样本相同的补丁之间的实例相关性,将丰富的视觉表示合并到语言模型中。对来自不同场景的三个公共视觉 - 语言数据集进行定量评估,结果表明所提出的 MIVPG 可以改善主要的视觉 - 语言任务中的 Q-former 模型。