Jul, 2024

更关注图像:一种无训练方法以减轻大型视觉语言模型中的幻觉现象

TL;DR本研究针对大型视觉语言模型(LVLMs)中存在的图像特征与语言模型间的规模不匹配问题,造成了模型过于依赖语言生成,进而导致幻觉现象。本文提出了一种无训练算法,通过动态调整图像令牌的注意力权重,提升其在多模态理解中的重要性,从而有效减少幻觉输出,增强模型对图像内容的关注。