揭示文本、图像、视频和音频基础模型中的幻觉：一项全面综述

May, 2024

揭示文本、图像、视频和音频基础模型中的幻觉：一项全面综述

Unveiling Hallucination in Text, Image, Video, and Audio Foundation Models: A Comprehensive Review

Pranab Sahoo, Prabhash Meharia, Akash Ghosh, Sriparna Saha, Vinija Jain...

TL;DR该综述论文通过综合横跨文本、图像、视频和音频等多种模态的最新进展，旨在提供对基于模态的基础模型中幻觉问题的识别和缓解的宝贵洞察，为研究人员、开发人员和实践者建立了一个明确的框架，包括定义、分类和检测策略，为这一关键领域的未来研究奠定了基础。

Abstract

The rapid advancement of foundation models (FMs) across language, image, audio, and video domains has shown remarkable capabilities in diverse tasks. However, the proliferation of FMs brings forth a critical challenge: the potential to generate hallucinated outputs, particularly in hig

foundation models hallucination multimodal detection strategies research

发现论文，激发创造

大型基础模型中的幻觉调查

在这篇综述论文中，研究了大型基础模型（LFMs）中幻觉问题的最新进展，包括幻觉现象的分类、评估标准以及减轻幻觉的策略和未来研究方向。

Sep, 2023

决策基础模型中的幻象检测：一个灵活的定义和现有技术综述

自主系统使用基础模型进行决策的应用方向非常有前途，然而基础模型往往存在产生不合理决策的问题，因此有必要设计系统来量化模型的决策确定性并检测模型产生幻觉的情况。本研究讨论了基础模型在决策任务中的当前应用案例，给出了幻觉的一般定义及示例，并探讨了幻觉检测和减轻的现有方法，同时探索了这个激动人心领域的进一步研究方向。

Mar, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对 MLLMs 中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

大型语言模型中幻觉的令人不安出现 -- 广泛定义、量化和规范性改进

通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解，我们提供了两个幻视方向（FM 和 SL）的全面理解，并将其进一步细分为内在和外在，分为温和、中度和令人担忧的三个严重程度，同时我们还对幻视进行了六种类型的细致分类。此外，我们还提供了包含 75,000 个样本和人工注释的 HallucInation eLiciTation（HILT）数据集。最后，我们提出了 Hallucination Vulnerability Index（HVI），该指数可以量化和评估语言模型在产生幻视方面的脆弱性，并作为人工智能相关政策制定的标准工具。

Oct, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

关于大型音视频语言模型中的音频幻觉

通过分析大型音视频语言模型中的音频幻觉，本文收集了包含幻觉的 1,000 个句子，并通过预训练的音频文本模型以零样本和微调的方式进行音频幻觉分类任务，结果显示零样本模型表现更好 (52.2% F1)，优于随机模型 (40.3%)，微调模型表现最佳 (87.9%)。

Jan, 2024

认知幻象：大型语言模型中幻觉的综述

研究总结了最近对大型语言模型中的幻觉现象的有趣见解，提出了一个包含各种文本生成任务中幻觉的新颖分类法，以及理论洞察、检测方法和改进方法，并提出了若干未来的研究方向。

Sep, 2023

零样本多任务幻觉检测

在这项研究中，我们正式定义了虚构，并提出了一种在零镜头环境中定量检测虚构的框架，利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度，在模型无关环境中实现了 0.61 的准确度。值得注意的是，我们的解决方案保持了计算效率，比其他现有方法需要更少的计算资源，符合轻量化和压缩模型的趋势。

Mar, 2024

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来 LLM 幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

AutoHall: 大型语言模型的自动幻觉数据集生成

该论文提出了 AutoHall 方法，通过自相矛盾的方式自动构建模型特定的幻觉数据集，然后基于这些数据集实现了无资源和黑盒幻觉检测方法，对开源和闭源大型语言模型进行了实验证明，在幻觉检测性能上优于现有基准模型，并且发现了不同模型之间的幻觉比例和类型的差异。

Sep, 2023