Nov, 2023

R-Tuning:教授大型语言模型拒绝未知问题

TL;DR在本研究中,我们通过观察到以往的指导调优方法无论模型是否拥有相关知识都会强制其完成句子,从而导致大语言模型产生虚假事实的问题,提出了一种名为 R-Tuning 的全新方法。该方法通过首先确定参数化知识和指导调优数据之间的知识差距,然后基于知识交集构建拒绝感知数据,使大语言模型在回答超出其参数化知识范围内的问题时能够避免回答。实验结果表明,这种新的指导调优方法有效地提高了模型回答已知问题的能力,并避免了回答未知问题。此外,在应用于领域外数据集时,发现拒绝能力是一种可以推广到其他任务上的元技能。进一步分析令人惊讶地发现,学习不确定性比基于不确定性的测试具有更好的估计不确定性的能力。