Mar, 2024

拒绝能提升可靠性:使用知识反馈的强化学习训练 LLMs 以拒绝未知问题

TL;DR通过引入拒绝机制和可靠性度量,本文提出了一种新的对齐框架 RLKF,利用知识反馈动态确定模型的知识边界,并训练可靠的奖励模型来鼓励拒绝超出知识范围的问题,实验证实 RLKF 在显著提高大型语言模型可靠性方面的极大功效。