学会拒绝：通过知识范围限制和拒绝机制提升大型语言模型的可控性和可靠性

Nov, 2023

学会拒绝：通过知识范围限制和拒绝机制提升大型语言模型的可控性和可靠性

Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism

PDF

Lang Cao

TL;DR大型语言模型中存在问题的幻觉，通过拒绝机制和知识库来提高模型的可控性和可靠性。

Abstract

large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, enabling them to answer a wide range of questions across various domains. However, these models are not flawless and often produce responses that contain errors or misinformati

large language models hallucination refusal mechanism learn to refuse knowledge base

发现论文，激发创造

拒绝能提升可靠性：使用知识反馈的强化学习训练 LLMs 以拒绝未知问题

通过引入拒绝机制和可靠性度量，本文提出了一种新的对齐框架 RLKF，利用知识反馈动态确定模型的知识边界，并训练可靠的奖励模型来鼓励拒绝超出知识范围的问题，实验证实 RLKF 在显著提高大型语言模型可靠性方面的极大功效。

Mar, 2024

R-Tuning：教授大型语言模型拒绝未知问题

在本研究中，我们通过观察到以往的指导调优方法无论模型是否拥有相关知识都会强制其完成句子，从而导致大语言模型产生虚假事实的问题，提出了一种名为 R-Tuning 的全新方法。该方法通过首先确定参数化知识和指导调优数据之间的知识差距，然后基于知识交集构建拒绝感知数据，使大语言模型在回答超出其参数化知识范围内的问题时能够避免回答。实验结果表明，这种新的指导调优方法有效地提高了模型回答已知问题的能力，并避免了回答未知问题。此外，在应用于领域外数据集时，发现拒绝能力是一种可以推广到其他任务上的元技能。进一步分析令人惊讶地发现，学习不确定性比基于不确定性的测试具有更好的估计不确定性的能力。

Nov, 2023

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

抓住你！不要用無法回答的問題來騙我！自校准的大型語言模型用於回答未知問題

通过自体对齐方法，本文提出一种新颖且可扩展的方法以增强大型语言模型对不同类型未知问题的回答能力，不仅能够拒绝回答，还能提供关于无法回答的解释。实验结果验证了该方法在两个数据集上针对四种未知问题类型的三种任务形式方面优于现有基准模型。

Feb, 2024

基于不确定性的 LLMs 弃权改善安全性并减少幻觉

大语言模型 (LLMs) 缺乏可靠性是其实际部署的一个主要障碍。本研究探讨了在问答领域中，通过不确定性度量的不确定度来弃权的可行性和有效性，并使用具有和不具有人类反馈的强化学习（RLHF）的模型和这些不确定度度量，证明通过适当的不确定度度量进行弃权可以提高 LLMs 的可靠性。

Apr, 2024

不熟悉的微调范例控制语言模型的幻觉

通过深入研究机制，我们发现大型语言模型（LLMs）如何产生幻觉，研究表明 LLMs 在面对不熟悉概念时倾向于默认使用一种 “关于不确定性的预测”，可以通过修改训练数据中的监督来控制 LLMs 对于不熟悉输入的预测，我们基于这些原则，开发了一种 RL 方法，更可靠地减轻大型生成任务中的幻觉问题，并通过多项实验证实了我们的发现。

Mar, 2024

大型语言模型是否知道自己不知道的？

本研究评估了大语言模型的自我认知能力，通过引入自主问答数据集和一种自动化方法来检测不能回答的问题，研究发现大语言模型具有一定的自我认知能力，可以通过上下文学习和指导调整进一步提高其自我认知。但是，研究还发现，这些模型与人类在识别知识限制方面存在明显差距。

May, 2023

大型语言模型中的用户可控知识融合：平衡创造性和幻觉

本文提出了一种创新的用户可控机制，通过在 LLM 训练的微调阶段引入一个代表生成回答中对参考知识忠实程度的数值标签，综合利用 ROUGE 得分、Sentence-BERT 嵌入和 LLM 的自我评估得分来度量词汇重叠度和语义相似度，用户可以操作这一数值标签来控制 LLM 对外部知识的依赖程度，通过广泛的实验验证了该方法的适用性和有效性，强调了增强 LLM 的多功能性同时保持创造性和准确性平衡的潜力。

Jul, 2023

具有合理性的语言模型

在大型语言模型中添加一个反思层次，通过构建信念图和使用形式化的约束推理器，从而减少其答案与其他 “信念” 的依赖关系和不一致性，REFLEX 方法可以改善一定程度的一致性，同时不降低模型的答案准确性。

May, 2023