CLIP-DPO:将视觉语言模型作为修正大型视觉语言模型幻觉的偏好源
介绍M-HalDetect,一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用Fine-grained Direct Preference Optimization和拒绝抽样方法,成功减少了幻觉率,为视觉问题回答任务提供了重要的改进。
Aug, 2023
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
这篇论文提出了一个新的策略:幻觉感知直接偏好优化(HA-DPO),通过训练模型在给定同一图像的两个回应(一个准确一个幻觉)时倾向于选择非幻觉回应,从而解决了多模式大型语言模型中存在的“幻觉问题”。研究结果表明,在应用HA-DPO策略后,MiniGPT-4模型的性能得到了显著提升。
Nov, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。
Feb, 2024
大规模视觉语言模型容易出现对象幻觉问题,本文提出了使用CLIP引导解码的方法来减少对象幻觉,通过增强生成文本与图像之间的视觉联系,有效缓解了多个视觉语言模型家族中的对象幻觉问题,并且保持了文本生成的实用性。
Feb, 2024
大规模视觉-语言模型(LVLMs)在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而,它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响,生成的文本不准确地表示了视觉内容。为解决这个问题,本文引入了Instruction Contrastive Decoding(ICD)方法,这是一种旨在减少LVLM推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD对标准和干扰指令的分布进行对比,从而增加了对齐的不确定性,并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准(POPE和MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了ICD显著减轻了物体级幻觉和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,还显著提升了LVLM的一般感知和识别能力。
Mar, 2024
通过细粒度人工智能反馈,检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测-重写流程来自动构建偏好数据集,进一步区分幻觉的严重程度,将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。
Apr, 2024
本研究解决了视觉语言模型(VLMs)中长期存在的幻觉问题,提出了一种通过线性正交化图像特征与幻觉对象特征的方法。研究表明,针对模型潜在表示进行有针对性的编辑,可以在保持性能的同时,将幻觉减少多达25.7%。该工作深入理解了VLMs的潜在表示,提升了可靠性并启用了新能力,如零-shot分割。
Oct, 2024
本研究针对预训练视觉语言模型中的物体幻觉问题,尤其是在CLIP模型中进行深入调查,确定幻觉问题不仅仅源于视觉与语言模态之间的交互。我们提出了一种反事实数据增强方法,通过生成多样化的负样本有效缓解幻觉问题,从而提升CLIP模型的表现,并在大型视觉语言模型中显著减轻了物体幻觉现象。
Oct, 2024
本研究解决了大规模视觉语言模型(LVLMs)中对象幻觉的问题,强调了现有研究对视觉输入理解不足的片面性,忽视了模型在特征提取和解耦方面的根本缺陷。我们提出了一种新的调优策略PATCH,通过自适应虚拟标记有效提取对象特征,显著提升多个多模态幻觉数据集的表现,旨在提供对LVLMs中幻觉原因的更深刻理解。
Oct, 2024