Jul, 2024

ControlMLLM:无训练的多模态大语言模型视觉提示学习

TL;DR本研究解决了多模态大语言模型(MLLM)中视觉提示注入的无训练方法缺口。我们提出了一种通过可学习的视觉令牌优化来实现该目的的新颖方法,并在推理阶段优化视觉令牌,以增强注意力图中参考区域的强度。研究结果表明,该方法不仅具备良好的可控性和可解释性,还能有效整合参考能力。