Oct, 2024

重新思考大型视觉语言模型中长期推理的视觉依赖性

TL;DR本研究探讨大型视觉语言模型(LVLMs)在长期推理中的表现问题,发现其过于依赖文本信息而导致视觉依赖性降低。我们提出了一种新的无训练上下文修剪方法,旨在选择性去除不重要的文本信息,从而增强视觉依赖性并提高LVLM的长期推理性能。实验证明,该方法有效改善了各类LVLM在长期上下文中的表现。