视觉幻觉:定义、量化和规范化疗法
通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解,我们提供了两个幻视方向(FM 和 SL)的全面理解,并将其进一步细分为内在和外在,分为温和、中度和令人担忧的三个严重程度,同时我们还对幻视进行了六种类型的细致分类。此外,我们还提供了包含 75,000 个样本和人工注释的 HallucInation eLiciTation(HILT)数据集。最后,我们提出了 Hallucination Vulnerability Index(HVI),该指数可以量化和评估语言模型在产生幻视方面的脆弱性,并作为人工智能相关政策制定的标准工具。
Oct, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。
Feb, 2024
通过分析 Intrinsic Vision-Language Hallucination(IVL-Hallu)问题的不同类型、原因和反映,我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型:物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中,我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu,以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。
Mar, 2024
大型语言模型(LLM)生成的文本中存在幻觉现象,通过信息检索来减少幻觉数量,但仍存在各种原因导致幻觉产生。为了促进这个方向的研究,我们引入了一个复杂的数据集 DelucionQA,用于捕捉检索增强 LLM 在特定领域的问答任务中所产生的幻觉,并提出了一系列幻觉检测方法作为未来研究的基准。分析和案例研究还提供了有关目标场景中幻觉现象的宝贵见解。
Dec, 2023
通过细粒度人工智能反馈,检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集,进一步区分幻觉的严重程度,将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。
Apr, 2024
本研究通过系统回顾 14 个数据库,分析了 “AI 幻觉” 这一术语的定义,并将其按应用领域进行分类,发现使用该术语的一致性不足,提出了几个替代术语,并呼吁在涉及多个领域的重要当代 AI 问题上实现更加统一的共识。
Jan, 2024
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对 MLLMs 中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法,并分析了导致幻觉的因素,并提供了缓解幻觉问题的建议。
Aug, 2023
通过使用一个工具称为 VHTest,我们生成了一个包含 8 种视觉幻觉模式的多样化 VH 实例数据集,并发现现有的多模态 LLM 如 GPT-4V,LLaVA-1.5 和 MiniGPT-v2 在我们的数据集中的大部分实例中出现幻觉,而使用我们的数据集对 MLLM 进行 fine-tuning 可以减少其幻觉可能性而不降低其在其他基准测试中的性能。
Feb, 2024