May, 2024

大型语言模型的多参考偏好优化

TL;DR如何使大型语言模型与人类意图和价值相吻合?通过引入多个参考模型的直接偏好优化方法,我们提出了一种新的闭式表达式,名为多参考模型偏好优化(MRPO),从多样化的参考模型中利用更广泛的先验知识,显著增强了偏好学习能力。我们的实验证明,使用 MRPO 微调的大型语言模型在各种偏好数据中都具有更好的泛化能力,无论数据稀缺还是丰富。此外,MRPO 有效地使大型语言模型在 GSM8K 和 TruthfulQA 等多个下游自然语言处理任务中表现出优越性能。