May, 2024

不忘初心: 大规模视觉语言模型的关注力视觉校准

TL;DR通过Attentional Vision Calibration (AVC)技术,针对Large Vision Language Models (LVLMs)中出现的盲目令牌(blind tokens)引发的视觉对象细节理解问题,通过动态调整逻辑回归预测以降低对盲目令牌的依赖,从而提高所有令牌的平衡考虑,有效地减少了LVLMs中的视觉对象幻觉。