基于不确定性的 LLMs 弃权改善安全性并减少幻觉

Apr, 2024

基于不确定性的 LLMs 弃权改善安全性并减少幻觉

Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations

Christian Tomani, Kamalika Chaudhuri, Ivan Evtimov, Daniel Cremers, Mark Ibrahim

TL;DR大语言模型 (LLMs) 缺乏可靠性是其实际部署的一个主要障碍。本研究探讨了在问答领域中，通过不确定性度量的不确定度来弃权的可行性和有效性，并使用具有和不具有人类反馈的强化学习（RLHF）的模型和这些不确定度度量，证明通过适当的不确定度度量进行弃权可以提高 LLMs 的可靠性。

Abstract

A major barrier towards the practical deployment of large language models (LLMs) is their lack of reliability. Three situations where this is particularly apparent are correctness, hallucinations when given unans

large language models reliability uncertainty measures question-answering abstention

发现论文，激发创造

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

通过符合性放弃减轻 LLM 幻觉

我们开发了一个原则性的方法，确定一个大型语言模型在一般领域中，何时应该放弃回答而选择回答 “我不知道”，而不是胡言乱语或错误答案。通过使用自洽性作为一种更可靠的模型置信度度量的早期方法的基础上，我们提出使用语言模型本身来自我评估其对于给定查询的每个采样响应之间的相似性。然后，我们进一步利用符合预测技术来开发一种放弃回答的方法，该方法在误报率（错误率）上具有严格的理论保证。在实验中，我们的符合预测放弃方法可可靠地限制了各种闭书、开放领域的生成问答数据集的胡言乱语率，同时与基于对数概率分数量化不确定性的基线相比，在长答案的数据集（时间序列）上保持了一个显著较低的放弃率，同时在短答案的数据集（TriviaQA）上实现了可比较的性能。为了自动评估实验，需要确定两个答案在给定问题下是否等价。遵循标准做法，我们使用一个阈值相似性函数来确定两个响应是否相匹配，并提供了一种根据符合预测进行阈值校准的方法，并在匹配预测的准确性上具有理论保证，这可能具有独立的兴趣。

Apr, 2024

相信还是不相信你的 LLM

我们在大型语言模型中探索不确定性量化，旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性，从中推论出一种信息论度量，可可靠地检测只有认识论不确定性较大的情况，从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉，在单答案和多答案响应中均适用。与许多标准的不确定性量化策略（例如，将响应的对数似然度阈值化）不同，无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外，我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大，这可能具有独立的研究价值。

Jun, 2024

拒绝能提升可靠性：使用知识反馈的强化学习训练 LLMs 以拒绝未知问题

通过引入拒绝机制和可靠性度量，本文提出了一种新的对齐框架 RLKF，利用知识反馈动态确定模型的知识边界，并训练可靠的奖励模型来鼓励拒绝超出知识范围的问题，实验证实 RLKF 在显著提高大型语言模型可靠性方面的极大功效。

Mar, 2024

勿妄为，自制自己：通过多个 LLM 协作识别 LLM 知识盲点

通过合作和竞争的方式，提出了两种新的方法来识别大型语言模型的知识缺口，并在检索增强和多跳推理中帮助识别失败案例和知识缺口。

Feb, 2024

增强基于不确定性的错觉检测与更强的关注

本文提出了一种新颖的无参考、基于不确定性的大语言模型 (LLM) 幻觉检测方法，通过关注给定文本中最具信息和重要性的关键词、历史上不可靠的标记以及标记属性（如类型和频率），实现了最新的检测方法，消除了对额外信息的需求。

Nov, 2023

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

导航不确定性：封闭式问题回答中优化 API 依赖关系以减少幻觉

我们提出了一种新的大型语言模型，能够自我评估是否能直接回答问题或需要请求外部工具。我们通过引入幻觉屏蔽机制的监督方法进行研究，并提出利用参数高效微调技术在少量数据上训练模型。我们的模型直接回答已知查询的问题，对于未知查询进行搜索，从而只在 62% 的时间内使用 API。

Jan, 2024

科学问答中通过上下文扰动表征 LLM 回避行为

在这项研究中，我们研究了 LLMs 在提供不充分或不正确的上下文时放弃回答具有环境依赖性的科学问题的能力。通过在四个 QA 数据集上进行实验，我们展示了性能在模型之间、提供的上下文类型之间以及问题类型之间存在巨大的差异。我们的分析还突显了放弃回答表现对 QA 任务准确性的意外影响，表明需要改进 QA 数据集的设计和评估方法，以更有效地评估模型放弃回答的正确性和下游影响。

Apr, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023