AI海洋中的塞壬之歌：大型语言模型中的幻觉调查

Sep, 2023

AI海洋中的塞壬之歌：大型语言模型中的幻觉调查

Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models

Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu...

TL;DR本文调查了近期关于大型语言模型（LLMs）幻觉的检测、解释和缓解的努力，并着重讨论了LLMs所带来的独特挑战，提出了LLM幻觉现象的分类和评估基准，并分析了现有的缓解LLM幻觉方法，探讨了未来研究的潜在方向。

Abstract

While large language models (LLMs) have demonstrated remarkable capabilities across a range of downstream tasks, a significant concern revolves around their propensity to exhibit hallucinations: LLMs occasionally

发现论文，激发创造

认知幻象：大型语言模型中幻觉的综述

研究总结了最近对大型语言模型中的幻觉现象的有趣见解，提出了一个包含各种文本生成任务中幻觉的新颖分类法，以及理论洞察、检测方法和改进方法，并提出了若干未来的研究方向。

Sep, 2023

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来LLM幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

大型语言模型中幻觉缓解技术的综合调查

这篇论文综述了32种技术，旨在减轻大型语言模型中的幻觉问题，其中包括检索增强生成、知识检索、CoNLI和CoVe等方法，并提出了基于数据集利用、常见任务、反馈机制和检索器类型等参数的分类方法，以区分专门设计用于解决大型语言模型幻觉问题的各种方法。此外，还分析了这些技术中存在的挑战和局限性，为未来研究提供了坚实的基础。

Jan, 2024

黑暗之后的黎明：大型语言模型中的事实错觉的实证研究

在大型语言模型时代，幻觉（即生成事实不准确的内容）对于在现实应用中可信可靠地部署语言模型构成了巨大的挑战。为了解决语言模型幻觉问题，本研究对幻觉检测、幻觉来源和幻觉缓解这三个重要问题进行了系统的实证研究。研究通过构建一个新的幻觉基准HalualEval 2.0，设计了一种简单而有效的语言模型幻觉检测方法，并深入分析了导致语言模型幻觉的潜在因素。最后，研究实施并检验了一系列常用的技术来缓解语言模型中的幻觉。本研究的工作为理解幻觉的起源以及缓解语言模型中的幻觉问题提供了重要发现。

Jan, 2024

幻觉是不可避免的：大型语言模型的固有限制

本研究证明，在大型语言模型中消除幻觉是不可能的，因为我们定义了一个形式世界，其中幻觉被定义为一个可计算的语言模型与一个可计算的真实函数之间的不一致性。通过使用学习理论的结果，我们表明语言模型无法学习所有的可计算函数，因此它们将始终产生幻觉。此外，我们还描述了真实世界中受幻觉影响的任务，并通过实证验证了我们的论点。最后，我们讨论了现有幻觉减轻方法的可能机制和功效，以及对安全部署大型语言模型的实际影响。

Jan, 2024

大型视觉语言模型中的幻觉调查

通过综合调查，我们分析了大型视觉语言模型（LVLMs）中的幻觉问题，以建立一个概览并为未来的缓解工作提供帮助。调查包括对LVLMs中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估LVLMs幻觉的基准和方法论的概述。此外，我们深入研究了这些幻觉的根本原因，包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾，并讨论了关于LVLMs中幻觉的未解问题和未来研究方向。

Feb, 2024

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了87%的平衡准确率，而无需依赖外部知识。

Mar, 2024

多模态大型语言模型的幻觉：一项调查

综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型（MLLMs）中产生幻觉的原因进行分析，旨在加深对MLLMs中幻觉的理解，并激发该领域的进一步发展。

Apr, 2024

硬币的两面：利用LLMs作为LLMs的评估器进行幻觉生成和检测

本文探讨了四个大型语言模型（LLMs）（Llama 3、Gemma、GPT-3.5 Turbo和GPT-4）在幻觉生成和检测任务中的能力，并采用集成多数投票的方法将所有四个模型应用于检测任务，结果对于了解这些模型在处理幻觉生成和检测任务中的优势和不足具有有价值的见解。

Jul, 2024

探寻内在原因：为何LLMs产生幻觉的因果视角

通过干预大型语言模型（LLMs）的自注意力层，我们发现在LLMs的前部或尾部禁用特定的自注意力层可以减轻幻觉问题，从而为理解和减轻LLMs的幻觉问题打开了一条新的途径。

Jul, 2024