拒绝能提升可靠性：使用知识反馈的强化学习训练 LLMs 以拒绝未知问题

Mar, 2024

拒绝能提升可靠性：使用知识反馈的强化学习训练 LLMs 以拒绝未知问题

Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback

Hongshen Xu, Zichen Zhu, Da Ma, Situo Zhang, Shuai Fan...

TL;DR通过引入拒绝机制和可靠性度量，本文提出了一种新的对齐框架 RLKF，利用知识反馈动态确定模型的知识边界，并训练可靠的奖励模型来鼓励拒绝超出知识范围的问题，实验证实 RLKF 在显著提高大型语言模型可靠性方面的极大功效。

Abstract

large language models (LLMs) often generate erroneous outputs, known as hallucinations, due to their limitations in discerning questions beyond their knowledge scope. While addressing hallucination has been a foc

large language models hallucinations rejection mechanisms model reliability reinforcement learning from knowledge feedback

发现论文，激发创造

学会拒绝：通过知识范围限制和拒绝机制提升大型语言模型的可控性和可靠性

大型语言模型中存在问题的幻觉，通过拒绝机制和知识库来提高模型的可控性和可靠性。

Nov, 2023

学会相信自己的感受：在语言模型中利用自我意识缓解幻觉

通过使用知识探测、一致性检查和强化学习等方法，我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识，然而它们在生成过程中常常无法表达其内部知识，导致虚构。为此，我们提出了一种自动虚构注释工具，通过梦网，该工具将知识探测和一致性检查方法结合起来，以排名虚构偏好数据。通过使用知识偏好作为奖励，我们提出了一种从知识反馈中强化学习（RLKF）的训练框架，利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明，RLKF 训练有效地增强了模型利用其内部知识状态的能力，在各种基于知识和诚实性的任务中提高了性能。

Jan, 2024

基于不确定性的 LLMs 弃权改善安全性并减少幻觉

大语言模型 (LLMs) 缺乏可靠性是其实际部署的一个主要障碍。本研究探讨了在问答领域中，通过不确定性度量的不确定度来弃权的可行性和有效性，并使用具有和不具有人类反馈的强化学习（RLHF）的模型和这些不确定度度量，证明通过适当的不确定度度量进行弃权可以提高 LLMs 的可靠性。

Apr, 2024

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

R-Tuning：教授大型语言模型拒绝未知问题

在本研究中，我们通过观察到以往的指导调优方法无论模型是否拥有相关知识都会强制其完成句子，从而导致大语言模型产生虚假事实的问题，提出了一种名为 R-Tuning 的全新方法。该方法通过首先确定参数化知识和指导调优数据之间的知识差距，然后基于知识交集构建拒绝感知数据，使大语言模型在回答超出其参数化知识范围内的问题时能够避免回答。实验结果表明，这种新的指导调优方法有效地提高了模型回答已知问题的能力，并避免了回答未知问题。此外，在应用于领域外数据集时，发现拒绝能力是一种可以推广到其他任务上的元技能。进一步分析令人惊讶地发现，学习不确定性比基于不确定性的测试具有更好的估计不确定性的能力。

Nov, 2023

通过自我完善增强的知识检索减轻大型语言模型的幻觉

在医学领域中，通过使用自我完善的知识图谱检索方法（Re-KGR），我们可以显著提高大型语言模型的真实性，降低谬误并减少虚构内容。

May, 2024

不熟悉的微调范例控制语言模型的幻觉

通过深入研究机制，我们发现大型语言模型（LLMs）如何产生幻觉，研究表明 LLMs 在面对不熟悉概念时倾向于默认使用一种 “关于不确定性的预测”，可以通过修改训练数据中的监督来控制 LLMs 对于不熟悉输入的预测，我们基于这些原则，开发了一种 RL 方法，更可靠地减轻大型生成任务中的幻觉问题，并通过多项实验证实了我们的发现。

Mar, 2024

利用 LLM 反馈进行强化学习以对抗目标误推

介绍一种使用大型语言模型（LLM）反馈来解决强化学习中的目标误概化问题的方法，通过在训练过程中利用 LLMs 分析 RL 代理的策略并识别潜在的故障场景，进而部署 RL 代理并通过 LLM 偏好和反馈学习奖励模型，用这个基于 LLM 信息的奖励模型进一步训练 RL 代理，在迷宫导航任务中应用我们的方法，显示在目标广义化方面有明显改善，特别是当真实目标和代理目标在某种程度上可区分且行为偏差显著的情况下，这项研究展示了 LLM 如何有效监督 RL 代理，在强化学习中通过使用 LLMs 提供可扩展的监督和宝贵的洞察来增强目标导向学习。

Jan, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

教导大型语言模型从自身信号中表达知识边界

本文提出了 CoKE 方法，通过评估大型语言模型的知识边界，使其能够准确表达自己的知识边界，从而减少幻觉现象，显著提高在领域内和领域外的性能表现。

Jun, 2024