利用逻辑封闭环路的原理,提出了一种基于逻辑一致性探测的对象幻觉检测和缓解框架,命名为 LogicCheckGPT,该方法可以无缝应用于所有现有的大视觉 - 语言模型,并在三个基准测试中的四种模型上进行的全面实验表明了该方法带来的显着改进,证明了其有效性和普适性。
Feb, 2024
LVLM Hallucination Revisor (LURE) 是一种简单而强大的算法,通过重建较少产生幻觉的描述来修正 LVLMs 中的物体幻觉问题,从而提高视觉总结和推理等视觉语言任务的性能。
Oct, 2023
该论文系统研究了视觉语言预训练模型中对象幻觉问题,从近期最先进的 VLP 模型,VLP 中不同类型的图像编码方式,以及 VLP 目标的不同方面入手,提出了一种名为 ObjMLM 的简单而有效的 VLP 损失,能够减少对象幻觉。实验表明,ObjMLM 可以将对象幻觉降低多达 17.4%。
Oct, 2022
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
通过对大型视觉语言模型的系统研究,本论文发现大型视觉语言模型容易出现物体幻影问题,并探讨了视觉指导对幻觉的影响,提出了一种改进的评估方法 POPE,以更稳定和灵活的方式评估物体幻影问题。
May, 2023
大规模视觉语言模型容易出现对象幻觉问题,本文提出了使用 CLIP 引导解码的方法来减少对象幻觉,通过增强生成文本与图像之间的视觉联系,有效缓解了多个视觉语言模型家族中的对象幻觉问题,并且保持了文本生成的实用性。
本文介绍了 ReCaption, 一个用于减少视觉 - 语言模型中细粒度物体幻觉的框架,并通过实验证明其有效性。
Dec, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。
通过细粒度人工智能反馈,检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集,进一步区分幻觉的严重程度,将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。
Apr, 2024
通过 MARINE 框架,可以在生成过程中有效地减少大视觉 - 语言模型的假象,并提高生成细节,无需 teaining/fine-tuning 或 API 访问。