Jul, 2024
重思基于外部知识的多模态大语言模型的视觉提示
Rethinking Visual Prompting for Multimodal Large Language Models with
External Knowledge
TL;DR通过将细粒度的知识信息直接嵌入空间嵌入图作为视觉提示,本论文提出的新的视觉提示方法可轻松地融入各种多模态大语言模型,从而显著提高它们的视觉理解性能。经过严格的实验证明,我们的方法可以增强多模态大语言模型在九个基准测试中的性能,增强它们的细粒度上下文感知能力。