观察、比较与决策:通过多视角多路径推理缓解大规模视觉语言模型中的幻觉问题
介绍M-HalDetect,一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用Fine-grained Direct Preference Optimization和拒绝抽样方法,成功减少了幻觉率,为视觉问题回答任务提供了重要的改进。
Aug, 2023
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
大规模视觉-语言模型(LVLMs)在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而,它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响,生成的文本不准确地表示了视觉内容。为解决这个问题,本文引入了Instruction Contrastive Decoding(ICD)方法,这是一种旨在减少LVLM推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD对标准和干扰指令的分布进行对比,从而增加了对齐的不确定性,并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准(POPE和MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了ICD显著减轻了物体级幻觉和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,还显著提升了LVLM的一般感知和识别能力。
Mar, 2024
当面临以前产生的幻觉相关查询时,大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗?这篇论文提出了一个评估LVLMs行为的框架,结果显示开源 LVLMs 的性能下降了至少 31%,进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。
Jun, 2024
本文针对大型视觉-语言模型(LVLM)在图像理解中常出现的幻觉问题,提出了一种新颖的主动检索增强框架(ARA),旨在通过优化检索目标、检索方法和检索时机来减轻模型生成不实回应的情况。研究表明,适当的检索机制和合理的检索时机能够有效降低幻觉现象,从而为LVLM的应用提供了重要的实践参考与理论支持。
Aug, 2024
本研究针对大型视觉语言模型(LVLMs)中存在的图像特征与语言模型间的规模不匹配问题,造成了模型过于依赖语言生成,进而导致幻觉现象。本文提出了一种无训练算法,通过动态调整图像令牌的注意力权重,提升其在多模态理解中的重要性,从而有效减少幻觉输出,增强模型对图像内容的关注。
Jul, 2024
本研究解决了大型视觉-语言模型(LVLMs)中的“幻觉”问题,该问题阻碍了其实际应用。我们提出了一种新的自我反思解码(SID)方法,通过根据先前的视觉和文本令牌评估视觉令牌的重要性,来有效减少幻觉现象,最终提高文本生成的质量和真实性。实验表明,SID在各种指标上生成的文本幻觉更少且质量更高,无需额外知识或计算负担。
Aug, 2024
本研究针对大型视觉语言模型(LVLMs)长生成中的幻觉问题,提出了一种名为“Dentist”的统一框架,以有效缓解幻觉。通过分类查询并基于分类结果执行不同的缓解过程,该方法在简化部署中能够分类为感知或推理,有效提高了生成的准确性,实验证明在MMbench上获得了显著的性能提升。
Sep, 2024
本研究解决了大规模视觉语言模型(LVLMs)在视觉与语言任务中出现的多模态幻觉问题,提出了一种新的层次反馈学习框架(HELPD),通过在物体和句子语义层面上提供幻觉反馈来减少幻觉现象。研究表明,该方法在边际训练的情况下能有效降低超过15%的幻觉,并能与任何LVLM无缝集成,显著提升模型的生成文本质量。
Sep, 2024