MetaToken: 通过元分类检测图像描述中的虚构
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。
Feb, 2024
这篇论文通过深入探讨大型语言模型在幻觉方面的行为,定义了一种基于标记的方法以识别不同类型的幻觉,并进一步利用这种标记方法提高对话摘要任务中语言模型的可解释性和忠实度,同时提出了一个新的改进数据集和训练范式。
Dec, 2023
使用两个简单的分类器和从其他 LLM 评估器获得的四个数值特征,本文引入了一种监督学习方法,取得了有希望的结果,并在三个不同基准测试中超越了当前最先进的成果。
May, 2024
基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法,并分析了导致幻觉的因素,并提供了缓解幻觉问题的建议。
Aug, 2023
介绍 M-HalDetect,一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法,成功减少了幻觉率,为视觉问题回答任务提供了重要的改进。
Aug, 2023
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对 MLLMs 中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
通过细粒度人工智能反馈,检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集,进一步区分幻觉的严重程度,将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。
Apr, 2024
为了检测和评估 LVLMs 的幻觉,我们引入了 Med-HallMark,这是第一个专门设计用于医学多模态领域中的幻觉检测和评估的基准。我们提出了 MediHall Score 评价指标,并介绍了 MediHallDetector,一个用于准确检测幻觉的新型医学 LVLM。通过实验评估,我们建立了使用我们的基准的热门 LVLMs 的基准值,结果表明 MediHall Score 相对于传统指标提供了对幻觉影响更丰富的理解,并展示了 MediHallDetector 的改进性能。我们希望这项工作能显著提高 LVLMs 在医学应用中的可靠性。
Jun, 2024
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023