Sep, 2024

HELPD:通过层次反馈学习与视觉增强惩罚解码减轻大规模视觉语言模型的幻觉

TL;DR本研究解决了大规模视觉语言模型(LVLMs)在视觉与语言任务中出现的多模态幻觉问题,提出了一种新的层次反馈学习框架(HELPD),通过在物体和句子语义层面上提供幻觉反馈来减少幻觉现象。研究表明,该方法在边际训练的情况下能有效降低超过15%的幻觉,并能与任何LVLM无缝集成,显著提升模型的生成文本质量。