利用移动数据和深度模型评估听觉言语幻觉

Apr, 2023

利用移动数据和深度模型评估听觉言语幻觉

Using Mobile Data and Deep Models to Assess Auditory Verbal Hallucinations

Shayan Mirjafari, Subigya Nepal, Weichen Wang, Andrew T. Campbell

TL;DR该研究使用生态瞬间评估结合手机应用程序主动收集语言和情境数据，建立了一个神经网络模型来预测听觉幻觉的价值，并取得了 54％的 Top-1 和 72% 的 Top-2 F1 分数。

Abstract

hallucination is an apparent perception in the absence of real external sensory stimuli. An auditory hallucination is a perception of hearing sounds that are not real. A common form of auditory →

hallucination auditory verbal hallucination mental illness ecological momentary assessments neural net model

发现论文，激发创造

关于大型音视频语言模型中的音频幻觉

通过分析大型音视频语言模型中的音频幻觉，本文收集了包含幻觉的 1,000 个句子，并通过预训练的音频文本模型以零样本和微调的方式进行音频幻觉分类任务，结果显示零样本模型表现更好 (52.2% F1)，优于随机模型 (40.3%)，微调模型表现最佳 (87.9%)。

Jan, 2024

视觉幻觉：定义、量化和规范化疗法

本研究针对视觉 - 语言模型中的幻觉进行细致的分析，并通过图像字幕和视觉问答两个任务，确定了八个精细化的视觉幻觉方向：上下文猜测、身份不一致、地理错误、视觉错觉、性别异常、VLM 作为分类器、错误阅读和数字不一致。同时，还提供了一个包含 2,000 个样本的公开数据集 VHILT，用于研究这些类别的视觉幻觉。

Mar, 2024

神经自动语音识别中的幻听：识别错误和幻听模型

此研究报告探讨了深度神经网络产生的幻觉是一类输出错误，在自动语音识别中幻觉的定义为模型生成的转录与源话语在语义上无关，但仍然流畅和连贯，幻觉与模型产生的自然语言输出相似性带来了误导的危险，并影响系统的可信度。为了解决这个问题，作者提出了一种基于干扰的方法来评估自动语音识别模型在测试时易于产生幻觉，该方法不需要访问训练数据集。作者展示了这种方法有助于区分在基准词错误率相似的情况下产生幻觉和不产生幻觉的模型。作者进一步探讨了自动语音识别错误类型与数据集噪声类型之间的关系，以确定最有可能产生幻觉输出的噪声类型。最后，作者通过给话语注入随机噪声的方式发现了诱导产生幻觉的方法。

Jan, 2024

多模态大型语言模型的视觉幻觉

通过使用一个工具称为 VHTest，我们生成了一个包含 8 种视觉幻觉模式的多样化 VH 实例数据集，并发现现有的多模态 LLM 如 GPT-4V，LLaVA-1.5 和 MiniGPT-v2 在我们的数据集中的大部分实例中出现幻觉，而使用我们的数据集对 MLLM 进行 fine-tuning 可以减少其幻觉可能性而不降低其在其他基准测试中的性能。

Feb, 2024

大型语言模型中幻觉的令人不安出现 -- 广泛定义、量化和规范性改进

通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解，我们提供了两个幻视方向（FM 和 SL）的全面理解，并将其进一步细分为内在和外在，分为温和、中度和令人担忧的三个严重程度，同时我们还对幻视进行了六种类型的细致分类。此外，我们还提供了包含 75,000 个样本和人工注释的 HallucInation eLiciTation（HILT）数据集。最后，我们提出了 Hallucination Vulnerability Index（HVI），该指数可以量化和评估语言模型在产生幻视方面的脆弱性，并作为人工智能相关政策制定的标准工具。

Oct, 2023

MedVH：面向医学环境中大型视觉语言模型的幻觉系统评估

大视觉语言模型（LVLMs）在自然图像和文本数据的各种任务中取得了卓越的性能，在 LVLMs 微调和训练方面引发了大量研究。尽管有所进展，但对这些模型在小型数据集上微调时对幻觉的稳健性的研究非常有限。本研究引入了一个新的基准数据集，即医学视觉幻觉测试（MedVH），以评估特定领域 LVLMs 的幻觉。MedVH 包括五个任务，用于评估 LVLMs 在医学上下文中的幻觉，包括对文本和视觉输入的全面理解以及长文本回应生成。我们对通用 LVLMs 和医学 LVLMs 进行了广泛实验，发现尽管医学 LVLMs 在标准医学任务上表现出了很好的性能，但它们特别容易产生幻觉，通常比通用模型更容易产生幻觉，这引发了对这些特定领域模型可靠性的重大担忧。对于医学 LVLMs 在真实世界应用中真正有价值，它们不仅必须准确整合医学知识，还必须保持稳健的推理能力以防止幻觉。我们的工作为未来的这些研究提供了评估的途径。

Jul, 2024

医学视觉问答中的幻觉基准

最近大型语言和视觉模型在视觉问答（VQA）方面取得的成功，特别是在医学领域的应用（Med-VQA），表明实现有效的医疗视觉助手具有巨大潜力。然而，这些模型在临床环境中并没有经过广泛测试，我们在这里创建了一种医学图像的幻觉基准，并对最先进的模型进行了全面评估。该研究对当前模型的局限性进行了深入分析，并揭示了各种提示策略的有效性。

Jan, 2024

PhD：一个带提示的视觉幻觉评估数据集

通过分析 Intrinsic Vision-Language Hallucination（IVL-Hallu）问题的不同类型、原因和反映，我们提出了几种新颖的 IVL-Hallu 任务并将其分为四种类型：物体幻觉、属性幻觉、多模态冲突幻觉和反对常识幻觉。在这个研究中，我们提出了一个更具挑战性的基准测试来评估和探索 IVL-Hallu，以便为未来的 IVL-Hallu 和 LVLM 研究提供帮助。

Mar, 2024

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

关于事实问答中幻觉的早期检测

我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉，结果表明这些指标在幻觉生成和非幻觉生成之间存在差异，我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉，此二分类器的 AUROC 值达到 0.80，并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。

Dec, 2023