评估大规模视觉语言模型中的物体错构
LVLM Hallucination Revisor (LURE)是一种简单而强大的算法,通过重建较少产生幻觉的描述来修正LVLMs中的物体幻觉问题,从而提高视觉总结和推理等视觉语言任务的性能。
Oct, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。
Feb, 2024
通过分析 Intrinsic Vision-Language Hallucination(IVL-Hallu)问题的不同类型、原因和反映,我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型:物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中,我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu,以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。
Mar, 2024
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对MLLMs中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
大规模视觉语言模型(LVLMs)在对象幻觉方面经常遇到困难,会产生图像中不存在的对象。本研究系统地调查了多对象幻觉,在同时关注多个对象任务时,模型如何错误地理解(如发明不存在的对象或分心)。我们引入了基于识别的对象探针评估(ROPE),这是一种自动化评估协议,在测试过程中考虑到单个图像中的对象类别分布,并使用视觉引用提示来消除歧义。通过全面的实证研究和分析导致多对象幻觉的潜在因素,我们发现(1)与关注单个对象相比,LVLMs在关注多个对象时更容易产生幻觉。(2)测试的对象类别分布会影响幻觉行为,表明LVLMs可能会遵循捷径和虚假相关性。(3)幻觉行为受到数据特定因素、显著性和频率以及模型内在行为的影响。我们希望使LVLMs能够识别和推理常见于现实视觉场景中的多个对象,提供见解并量化我们在解决这些问题上的进展。
Jul, 2024
本研究针对多模态大型语言模型(MLLMs)在扰动输入下产生不一致内容的问题,提出了第一个专门评估此类幻觉的基准Hallu-PI。我们的实验表明,这些模型在面对扰动输入时的幻觉现象显著,揭示了MLLMs在处理不同类型幻觉时的严重偏差,从而为后续研究提供了新的方向。
Aug, 2024
本研究解决了大型视觉语言模型(LVLMs)在生成内容时可能出现的虚构现象,特别是物体之间关系的虚构问题。我们提出了一种统一框架,能够同时评估物体和关系的虚构,从而引入了Tri-HE基准,发现现有LVLM的关系虚构问题显著高于物体虚构,并提出了一种有效的无训练方法来减少这些虚构现象,表现超越所有开源基准。
Oct, 2024
本研究针对现有大型视觉-语言模型(LVLM)生成的幻觉内容,提出了一个统一框架来同时评估对象和关系幻觉。通过对LVLM响应中提取的三元组(对象、关系、对象)进行评估,发现关系幻觉问题比对象幻觉更为严重,强调了这一被忽视的重要问题,并提出了一种简单有效的训练无关方法,显著提高了模型的表现。
Oct, 2024
本研究针对大型视觉语言模型中的幻觉问题,提出了一种名为H-POPE的分层评估基准,系统性地评估对象存在性及属性的幻觉现象。研究结果表明,模型在对象存在性和细粒度属性上均易发生幻觉,揭示了模型输出文本时对视觉输入的依赖性。
Nov, 2024