R-Tuning：教授大型语言模型拒绝未知问题

Nov, 2023

R-Tuning：教授大型语言模型拒绝未知问题

R-Tuning: Teaching Large Language Models to Refuse Unknown Questions

Hanning Zhang, Shizhe Diao, Yong Lin, Yi R. Fung, Qing Lian...

TL;DR在本研究中，我们通过观察到以往的指导调优方法无论模型是否拥有相关知识都会强制其完成句子，从而导致大语言模型产生虚假事实的问题，提出了一种名为 R-Tuning 的全新方法。该方法通过首先确定参数化知识和指导调优数据之间的知识差距，然后基于知识交集构建拒绝感知数据，使大语言模型在回答超出其参数化知识范围内的问题时能够避免回答。实验结果表明，这种新的指导调优方法有效地提高了模型回答已知问题的能力，并避免了回答未知问题。此外，在应用于领域外数据集时，发现拒绝能力是一种可以推广到其他任务上的元技能。进一步分析令人惊讶地发现，学习不确定性比基于不确定性的测试具有更好的估计不确定性的能力。

Abstract

large language models (LLMs) have revolutionized numerous domains with their impressive performance but still face their challenges. A predominant issue is the propensity for these models to generate non-existent facts, a concern termed →

large language models hallucination instruction tuning knowledge gap refusal ability

发现论文，激发创造

认识未知：一种敏感于不确定性的 LLM 指导调优方法

通过利用不确定性敏感调谐方法，我们成功提高了大型语言模型识别其知识边界的能力，改善了幻觉问题，并在性能方面获得了显著的提升。

Jun, 2024

学会拒绝：通过知识范围限制和拒绝机制提升大型语言模型的可控性和可靠性

大型语言模型中存在问题的幻觉，通过拒绝机制和知识库来提高模型的可控性和可靠性。

Nov, 2023

知识感知的大语言模型微调

使用知识感知微调（KnowTuning）方法解决大型语言模型在自然语言处理任务中的知识感知不足问题，并在通用和医疗问答数据集上进行了广泛的实验证明了其有效性，并展示了其在未知问答数据集上的泛化能力。

Feb, 2024

拒绝能提升可靠性：使用知识反馈的强化学习训练 LLMs 以拒绝未知问题

通过引入拒绝机制和可靠性度量，本文提出了一种新的对齐框架 RLKF，利用知识反馈动态确定模型的知识边界，并训练可靠的奖励模型来鼓励拒绝超出知识范围的问题，实验证实 RLKF 在显著提高大型语言模型可靠性方面的极大功效。

Mar, 2024

经验调教语言模型优于知识学习者

通过在文档训练之前进行问答配对，提出了一种称为 PIT（pre-instruction-tuning）的方法，能够显著提高大型语言模型从新文档吸收知识的能力，比传统的指令调整方法的性能提高了 17.8%。

Feb, 2024

不熟悉的微调范例控制语言模型的幻觉

通过深入研究机制，我们发现大型语言模型（LLMs）如何产生幻觉，研究表明 LLMs 在面对不熟悉概念时倾向于默认使用一种 “关于不确定性的预测”，可以通过修改训练数据中的监督来控制 LLMs 对于不熟悉输入的预测，我们基于这些原则，开发了一种 RL 方法，更可靠地减轻大型生成任务中的幻觉问题，并通过多项实验证实了我们的发现。

Mar, 2024

自动调整：通过自学指导 LLMs 有效获得新知识

通过自学习的方式，引入 Self-Tuning 学习框架以提高大型语言模型的新知识获取能力，通过加强文档的自监督任务，着重在记忆、理解和自反思三个关键方面，实现从原始文档中高效获取新知识，通过三个数据集进行对知识获取能力的深入分析，实验证明 Self-Tuning 在所有知识获取任务上保持出色的性能，并擅长保留先前的知识。

Jun, 2024

自我完善指导调优用于对齐语言模型中的推理

我们提出了自我改进指导调整方法，通过引导较小语言模型进行自我改进，以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上，将推理能力从较大语言模型传输到较小语言模型，然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明，该方法在领域内外场景均显著优于指导调整方法，并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。

May, 2024

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

Tuna: 基于大型语言模型的指令调整

通过概率排名和上下文排名的方法对已调整过的模型进行微调，最终生成更好回复的模型称为 Tuna，能够优于强化学习基线模型，提高对各种任务的性能。

Oct, 2023