更关注图像:一种无训练方法以减轻大型视觉语言模型中的幻觉现象
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
最近大型视觉语言模型(LVLMs)在人类语言理解方面展现出了令人印象深刻的能力,但仍面临多模态幻觉的挑战。本文提出一种新的观点,暗示LVLMs中固有的偏见可能是幻觉的关键因素,进而通过识别与段落分割('$ extbackslash n extbackslash n$')相关的语义转变偏差系统地发现这一现象。研究发现,这种模式导致模型推断'$ extbackslash n、 extbackslash n$'之后的内容应与之前的内容明显不同,从而使得'$ extbackslash n、 extbackslash n$'之后的描述具有更多的幻觉性。在多个公开可用的LVLMs上验证了这一假设,并发现在生成的描述中故意插入'$ extbackslash n extbackslash n$'可以诱发更多幻觉。本文提出了一种简单的方法,通过跳过` extbackslash n'的输出来有效减轻LVLMs的幻觉现象。
Feb, 2024
当面临以前产生的幻觉相关查询时,大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗?这篇论文提出了一个评估LVLMs行为的框架,结果显示开源 LVLMs 的性能下降了至少 31%,进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。
Jun, 2024
本研究针对大型视觉语言模型(LVLMs)在多语言场景下产生幻觉的问题进行了首次探索,指出该现象比英语环境下更为严重。提出了一种双阶段的多语言幻觉去除框架,通过跨语言对齐方法优化模型输出,显著提高了13种语言的准确率,平均提高19.0%。
Aug, 2024
本研究解决了大型视觉-语言模型(LVLMs)中的“幻觉”问题,该问题阻碍了其实际应用。我们提出了一种新的自我反思解码(SID)方法,通过根据先前的视觉和文本令牌评估视觉令牌的重要性,来有效减少幻觉现象,最终提高文本生成的质量和真实性。实验表明,SID在各种指标上生成的文本幻觉更少且质量更高,无需额外知识或计算负担。
Aug, 2024
本研究解决了大规模视觉语言模型(LVLMs)在多模态理解中产生幻觉的问题。提出了一种无需训练的框架MVP,通过多视角信息搜索策略和多路径推理来提高输出的准确性。实验表明,该方法显著减少了LVLMs中的幻觉现象,提升了模型的表现。
Aug, 2024
本研究解决了大规模视觉语言模型(LVLMs)在视觉与语言任务中出现的多模态幻觉问题,提出了一种新的层次反馈学习框架(HELPD),通过在物体和句子语义层面上提供幻觉反馈来减少幻觉现象。研究表明,该方法在边际训练的情况下能有效降低超过15%的幻觉,并能与任何LVLM无缝集成,显著提升模型的生成文本质量。
Sep, 2024
本研究解决了大规模视觉语言模型(LVLMs)中对象幻觉的问题,强调了现有研究对视觉输入理解不足的片面性,忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH,通过自适应虚拟标记有效提取对象特征,显著提升多个多模态幻觉数据集的表现,旨在提供对LVLMs中幻觉原因的更深刻理解。
Oct, 2024
本研究解决了大型视觉-语言模型(LVLM)在生成基于视觉输入的响应时容易出现幻觉的问题。通过引入摘要引导解码(SGD)方法,研究表明该方法能够有效减少模型对语言先验的依赖,显著提升图像信息的利用率,并在对象幻觉基准测试中取得了最先进的表现,展现出更好的精确度与召回率平衡。
Oct, 2024