从循环到意外：不确定性下的语言模型回退行为

Jul, 2024

从循环到意外：不确定性下的语言模型回退行为

From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

Maor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva

TL;DR大型语言模型通常表现出不良行为，如幻觉和序列重复。我们将这些行为视为模型在不确定性下的后备方案，并研究它们之间的关联。通过对同一家族的模型进行广泛分析，在预训练令牌数量、参数数量或包含遵循指令的训练等方面的差异中，我们将后备行为归类为序列重复、退化文本和幻觉。我们的实验揭示了所有这些轴上后备行为的清晰且一致的排序：LLM 越先进（即训练更多令牌数、具有更多参数或经过了指令调优），其后备行为会从序列重复转变为退化文本，然后变成幻觉。此外，即使对于表现最佳的模型，在单个生成过程中也观察到相同的排序：随着不确定性的增加，模型从生成幻觉转变为产生退化文本，然后是序列重复。最后，我们证明了常见的解码技术，如随机取样，可以缓解某些不希望出现的行为，如序列重复，但会增加更难检测到的幻觉。

Abstract

large language models (LLMs) often exhibit undesirable behaviors, such as hallucinations and sequence repetitions. We propose to view thes

发现论文，激发创造

互信息在抽象摘要中减轻幻觉

本文发现了一个简单的标准——模型不确定性高——会导致生成更多的错误内容（即幻觉），并提出了一种解码策略，该策略在存在不确定性时优化源和目标单词的点间互信息，从而减少幻觉的出现，并在XSum数据集上进行了实验证明，该方法降低了幻觉的概率，同时保持了黄色和BertS得分。

Oct, 2022

幻觉是不可避免的：大型语言模型的固有限制

本研究证明，在大型语言模型中消除幻觉是不可能的，因为我们定义了一个形式世界，其中幻觉被定义为一个可计算的语言模型与一个可计算的真实函数之间的不一致性。通过使用学习理论的结果，我们表明语言模型无法学习所有的可计算函数，因此它们将始终产生幻觉。此外，我们还描述了真实世界中受幻觉影响的任务，并通过实证验证了我们的论点。最后，我们讨论了现有幻觉减轻方法的可能机制和功效，以及对安全部署大型语言模型的实际影响。

Jan, 2024

大语言模型中上下文学习的不确定性分解和量化

我们的研究探讨了与上下文学习相关的大型语言模型的预测不确定性，强调这种不确定性可能来自提供的示范（先验不确定性）和模型配置的歧义（后验不确定性），提出了一种新的公式和相应的估计方法来量化两种类型的不确定性，以插入和使用的方式无监督地理解上下文学习的预测。广泛的实验证明了该分解的有效性。

Feb, 2024

大规模语言模型生成中的幻觉检测：基于词元概率的方法

使用两个简单的分类器和从其他LLM评估器获得的四个数值特征，本文引入了一种监督学习方法，取得了有希望的结果，并在三个不同基准测试中超越了当前最先进的成果。

May, 2024

语义熵探针：在LLMs中稳健且经济的幻觉检测

我们提出了语义熵探针(SEPs)，这是一种在大型语言模型(LLMs)中用于量化不确定性的廉价可靠方法。

Jun, 2024

了解你的局限性：大型语言模型中弃权的调查

本文解决了大型语言模型（LLMs）在回答时拒绝提供答案的问题，从而减少幻觉风险并提高安全性。提出了一个框架从查询、模型和人类价值观三个角度审视弃权，整理了相关文献，讨论了已有方法的优缺点，并指出未来研究的潜在方向，如如何实现超越具体任务的弃权能力。

Jul, 2024

CLUE：大型语言模型的概念级不确定性估计

本研究针对现有大型语言模型（LLMs）在不确定性估计上的不足，提出了概念级不确定性估计（CLUE）框架。该方法通过将输出序列转化为概念级表示，能够单独评估序列中每个概念的不确定性，从而提供更具可解释性的结果，具有重要的应用潜力，如幻觉检测和故事生成。

Sep, 2024

大型语言模型总会出现幻觉，我们需要与此共存

本研究解决了大型语言模型（LLMs）中幻觉的不可避免性问题，强调幻觉不是偶然错误，而是这些系统固有的特性。通过引入“结构幻觉”概念，本论文表明幻觉源于LLM的基本数学和逻辑结构，指出无法通过架构改进或数据集增强完全消除幻觉，从而对现有观点提出挑战。

Sep, 2024

大型语言模型的内在表示与幻觉

本文研究了大型语言模型（LLMs）生成错误（即幻觉）的内在机制，发现其内部状态包含更多关于输出真实性的信息，这一信息集中在特定的标记上，能显著提升错误检测的性能。此外，研究表明，LLMs的错误编码并非普遍适用，而是多样化的，且内部编码和外部行为之间存在差异。该研究加深了我们对LLMs错误的理解，对未来改进错误分析和缓解策略具有重要指导意义。

Oct, 2024

大型语言模型的内在表征与幻觉：了解其知识的深度

本研究针对大型语言模型（LLMs）在生成内容时常见的错误，如事实不准确和推理失败，提出了新见解。研究发现，LLMs的内部表征不仅编码了更多关于输出真实性的信息，还揭示了特定标记中集中的真实性信息，从而显著提高错误检测的性能。最重要的是，这项工作显示了内部编码与外部行为之间的差异，为未来的错误分析和缓解提供了方向。

Oct, 2024