Sep, 2024

图像注意力引导在大型视觉语言模型中的应用

TL;DR本研究解决了大型视觉语言模型(LVLM)在处理图像输入时未能有效结合文本查询的问题。我们提出了一种新颖的注意力引导技术,通过在输入图像上叠加文本查询引导的注意力热图,以提升模型的任务完成能力。实验结果显示,该技术显著提高了LVLM在多个视觉语言基准上的表现。