Jan, 2024

WARM: 关于加权平均奖励模型的好处

TL;DR通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗,本文提出了一种解决方案,即使用加权平均奖励模型(WARM),通过对多个奖励模型进行微调并在权重空间中进行平均,以提高模型预测的质量和对齐度。