理解声音，忽视问题：大型音频语言模型中的对象幻觉挑战

Jun, 2024

理解声音，忽视问题：大型音频语言模型中的对象幻觉挑战

Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models

Chun-Yi Kuan, Wei-Ping Huang, Hung-yi Lee

TL;DR现有的大型音频语言模型在集成音频感知能力方面扩展了传统大型语言模型的功能，对其性能在各种任务上进行了主要的评估，但忽视了它们的可靠性，特别是与对象幻觉等问题相关的可靠性。本研究引入了评估公开可用的大型音频语言模型的对象幻觉程度的方法。研究发现，大型音频语言模型在理解音频内容方面与专用音频字幕模型相媲美，但在回答鉴别性问题上遇到困难，尤其是要求识别音频剪辑中特定对象声音存在的问题。这个限制凸显了当前大型音频语言模型的一个关键弱点：对于鉴别性查询的理解不足。此外，我们还探索了提示工程在提高大型音频语言模型在鉴别性问题上的性能方面的潜力。

Abstract

large audio-language models (LALMs) enhance traditional large language models by integrating audio perception capabilities, allowing them to tackle audio-related tasks. Previous research has primarily focused on assessing the performance of LALMs across various tasks, yet overlooking t

large audio-language models object hallucination reliability audio content understanding discriminative queries

发现论文，激发创造

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来 LLM 幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

大型视觉语言模型中的对象幻觉分析与缓解

LVLM Hallucination Revisor (LURE) 是一种简单而强大的算法，通过重建较少产生幻觉的描述来修正 LVLMs 中的物体幻觉问题，从而提高视觉总结和推理等视觉语言任务的性能。

Oct, 2023

AI 海洋中的塞壬之歌：大型语言模型中的幻觉调查

本文调查了近期关于大型语言模型（LLMs）幻觉的检测、解释和缓解的努力，并着重讨论了 LLMs 所带来的独特挑战，提出了 LLM 幻觉现象的分类和评估基准，并分析了现有的缓解 LLM 幻觉方法，探讨了未来研究的潜在方向。

Sep, 2023

大规模视觉语言模型中的幻觉评估和分析

基于大型语言模型的幻觉评估框架 (HaELM) 提出了对当前大视觉 - 语言模型 (LVLMs) 进行幻觉评估的方法，并分析了导致幻觉的因素，并提供了缓解幻觉问题的建议。

Aug, 2023

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对 MLLMs 中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

评估大规模视觉语言模型中的物体错构

通过对大型视觉语言模型的系统研究，本论文发现大型视觉语言模型容易出现物体幻影问题，并探讨了视觉指导对幻觉的影响，提出了一种改进的评估方法 POPE，以更稳定和灵活的方式评估物体幻影问题。

May, 2023

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。

Feb, 2024

逻辑闭环：在大规模视觉 - 语言模型中揭示物体幻觉

利用逻辑封闭环路的原理，提出了一种基于逻辑一致性探测的对象幻觉检测和缓解框架，命名为 LogicCheckGPT，该方法可以无缝应用于所有现有的大视觉 - 语言模型，并在三个基准测试中的四种模型上进行的全面实验表明了该方法带来的显着改进，证明了其有效性和普适性。

Feb, 2024