ICMLMay, 2024

通过基于代理的不确定性估计来改进语言模型的指令遵循

TL;DR我们提出了一种新颖的具有不确定性感知的奖励模型(URM),通过贝叶斯近似法对配对响应的质量进行稳健的不确定性估计,从而解决了评估语言模型中指令响应质量的问题。实验结果表明,将提出的代理方法纳入语言模型训练对指令遵循能力有显著提升,通过改进数据整理和优化策略,使其在诸如 Vicuna 和 MT-bench 等基准上大幅超越现有方法。这些发现突出了我们提出的方法在语言模型训练方面的重大进展,并为利用语言模型中的不确定性开拓了新的途径。