大型视觉语言模型中的幻觉研究
通过对大型视觉语言模型的系统研究,本论文发现大型视觉语言模型容易出现物体幻影问题,并探讨了视觉指导对幻觉的影响,提出了一种改进的评估方法POPE,以更稳定和灵活的方式评估物体幻影问题。
May, 2023
基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉-语言模型 (LVLMs) 进行幻觉评估的方法,并分析了导致幻觉的因素,并提供了缓解幻觉问题的建议。
Aug, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。
Feb, 2024
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对MLLMs中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
当面临以前产生的幻觉相关查询时,大型视觉-语言模型 (LVLMs) 会受到幻觉的影响而做出错误响应吗?这篇论文提出了一个评估LVLMs行为的框架,结果显示开源 LVLMs 的性能下降了至少 31%,进一步提出了一个名为 Residual Visual Decoding 的无需训练的方法来缓解多模态幻觉扩散现象。
Jun, 2024
本研究针对大型视觉语言模型(LVLMs)在多语言场景下产生幻觉的问题进行了首次探索,指出该现象比英语环境下更为严重。提出了一种双阶段的多语言幻觉去除框架,通过跨语言对齐方法优化模型输出,显著提高了13种语言的准确率,平均提高19.0%。
Aug, 2024
本研究解决了大规模视觉语言模型(LVLMs)中对象幻觉的问题,强调了现有研究对视觉输入理解不足的片面性,忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH,通过自适应虚拟标记有效提取对象特征,显著提升多个多模态幻觉数据集的表现,旨在提供对LVLMs中幻觉原因的更深刻理解。
Oct, 2024
本研究解决了大型视觉语言模型(LVLMs)中幻觉现象的问题,该现象源于视觉输入与文本输出之间的不对齐。提出了一种新技术——视觉与文本干预(VTI),该技术在推理过程中引导潜在空间表示,从而提高视觉特征的稳定性,实验结果表明VTI有效减少幻觉现象,并在多个指标上超越基线方法,突显了视觉特征稳定性的重要性。
Oct, 2024
本研究解决了大型视觉语言模型中幻觉现象的问题,分析其根本机制及其与大语言模型的不同之处。提出了一种新颖的视觉和文本干预技术(VTI),旨在通过引导潜空间表示来增强视觉特征的稳定性,从而有效减少幻觉现象,并在多项指标上超越基线方法,展示了视觉特征稳定性在视觉语言模型中的关键作用。
Oct, 2024