关于大型音视频语言模型中的音频幻觉
在这项研究中,我们正式定义了虚构,并提出了一种在零镜头环境中定量检测虚构的框架,利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度,在模型无关环境中实现了 0.61 的准确度。值得注意的是,我们的解决方案保持了计算效率,比其他现有方法需要更少的计算资源,符合轻量化和压缩模型的趋势。
Mar, 2024
现有的大型音频语言模型在集成音频感知能力方面扩展了传统大型语言模型的功能,对其性能在各种任务上进行了主要的评估,但忽视了它们的可靠性,特别是与对象幻觉等问题相关的可靠性。本研究引入了评估公开可用的大型音频语言模型的对象幻觉程度的方法。研究发现,大型音频语言模型在理解音频内容方面与专用音频字幕模型相媲美,但在回答鉴别性问题上遇到困难,尤其是要求识别音频剪辑中特定对象声音存在的问题。这个限制凸显了当前大型音频语言模型的一个关键弱点:对于鉴别性查询的理解不足。此外,我们还探索了提示工程在提高大型音频语言模型在鉴别性问题上的性能方面的潜力。
Jun, 2024
我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉,结果表明这些指标在幻觉生成和非幻觉生成之间存在差异,我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉,此二分类器的 AUROC 值达到 0.80,并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。
Dec, 2023
研究总结了最近对大型语言模型中的幻觉现象的有趣见解,提出了一个包含各种文本生成任务中幻觉的新颖分类法,以及理论洞察、检测方法和改进方法,并提出了若干未来的研究方向。
Sep, 2023
该综述论文通过综合横跨文本、图像、视频和音频等多种模态的最新进展,旨在提供对基于模态的基础模型中幻觉问题的识别和缓解的宝贵洞察,为研究人员、开发人员和实践者建立了一个明确的框架,包括定义、分类和检测策略,为这一关键领域的未来研究奠定了基础。
May, 2024
大语言模型倾向于生成多样的事实不准确的陈述,本文提出了一个新的任务 - 自动细粒度幻觉检测,并提出了一个涵盖六种层次定义的幻觉类型的综合分类法。通过引入一个新的基准测试以评估,我们的分析结果显示 ChatGPT 和 Llama 2-Chat 的输出中有 60% 和 75% 的幻觉,而其中大多数幻觉属于未被充分研究的类别。为了解决这个问题的初步步骤,我们训练了 FAVA,一个通过精心设计的合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在我们的基准测试中,我们的自动和人工评估显示 FAVA 在细粒度幻觉检测方面明显优于 ChatGPT,尽管还存在大量改进的空间。FAVA 提供的修改还提高了语言模型生成文本的准确性,导致了 5-10% 的 FActScore 改进。
Jan, 2024
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。
Feb, 2024
最近多模态大型语言模型在视频理解方面取得了重要进展,但这些模型常受到 “幻觉” 的困扰,本文介绍了 VideoHallucer,它是对大规模视频语言模型的幻觉检测的首个综合性基准。通过评估 11 个大规模视频语言模型,我们发现当前的模型大多存在幻觉问题,并且对于探测外在真实幻觉的能力,扩大数据集和参数规模改进了模型对基本视觉线索和反事实的探测能力,却提供了有限的改进。
Jun, 2024
该研究使用生态瞬间评估结合手机应用程序主动收集语言和情境数据,建立了一个神经网络模型来预测听觉幻觉的价值,并取得了 54%的 Top-1 和 72% 的 Top-2 F1 分数。
Apr, 2023