误导性语义快捷键上的推理链路：没有幻觉，模型能走多远？

Nov, 2023

误导性语义快捷键上的推理链路：没有幻觉，模型能走多远？

Deceiving Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination?

Bangzheng Li, Ben Zhou, Fei Wang, Xingyu Fu, Dan Roth...

TL;DR该研究探讨了大语言模型在推理过程中出现的错误思考路径和幻觉问题，并通过一种新的探测方法和基准测试提供了证据，揭示了语言模型存在语义关联和错误推理的问题。

Abstract

Despite the recent advancement in large language models (LLMs) and their high performances across numerous benchmarks, recent research has unveiled that LLMs suffer from hallucinations and unfaithful reasoning. T

large language models hallucinations semantic associations reasoning paths distractor clues

发现论文，激发创造

自信过度的大型语言模型隐藏状态中的幻觉无法解答现象

当生成虚幻答案时，大型语言模型表达问题是否无法回答的事实，结果表明，LLMs 的潜在表示中存在空间组织机制，揭示了这些模型以前未被探索的方面。同时，为了更好地遵守事实生成，特别是在问题无法回答的情况下，这些发现为改进解码技术的发展铺平了道路。

Oct, 2023

推理任务中大型语言模型产生幻觉的来源

该论文通过对多个大型语言模型的行为研究发现，训练数据的记忆和频率偏好是导致生成式大型语言模型产生幻觉的两个主要因素，这些模型在自然语言推断等应用任务中表现出明显的问题。

May, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

关于大型语言模型对已知事实的臆断

大型语言模型在回答事实性问题方面很成功，但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象，这是以往对幻觉研究中没有涉及的领域。通过两个关键思想，我们能够进行这种分析。首先，我们识别了查询相同三元知识但产生不同答案的实际问题。因此，模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次，为了测量这种模式，我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间，输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中，输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征，我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示，更重要的是，能够准确预测它们何时产生幻觉。

Mar, 2024

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

消除 LLM 幻觉需要重新思考泛化

通过广泛系统实验，我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉，并通过大量内存专家的混合来增强 LLMs，可以轻松地记忆大数据集，为去除幻觉设计了 Lamini-1 模型。

Jun, 2024

增强基于不确定性的错觉检测与更强的关注

本文提出了一种新颖的无参考、基于不确定性的大语言模型 (LLM) 幻觉检测方法，通过关注给定文本中最具信息和重要性的关键词、历史上不可靠的标记以及标记属性（如类型和频率），实现了最新的检测方法，消除了对额外信息的需求。

Nov, 2023

对话摘要中的 LLM 行为分析：揭示环境幻象趋势

最近大规模语言模型在摘要系统的能力方面取得了重大进展；然而，仍然存在关于虚构信息的担忧。本研究评估了对话摘要中大语言模型的准确性，使用人工注释，并着重于识别和分类分段级别的不一致性。通过比较行为差异，我们提出了一种错误的细分分类方法，并引入了两种基于提示的方法以更好地检测这些细微错误。

Jun, 2024

语言模型为何产生幻觉，如何获得（证据性）凝聚：忠实自然语言生成的感知、意图和推广学习

我们展示了 LLMs 的幻觉现象是因为它们的输出没有限制为与它们有证据支持的论点同义词，这一情况被称为证据闭合。我们进一步展示了如何约束 LLMs 以产生符合证据闭合的输出，并引入了多模式 LLMs、学习 - 胡言乱语 - 修剪（Learn-Babble-Prune）的启发式过程以确保 LLMs 输出与其有证据支持的论点同义。

Oct, 2023