Jan, 2024
改进奖励建模的西至N:合成优先性生成
West-of-N: Synthetic Preference Generation for Improved Reward Modeling
TL;DR我们提出一种改进奖励模型质量的新方法,通过生成合成偏好数据,以使训练数据集增加基于策略且高质量的偏好对。经验证明,该方法可以改善任何奖励模型的性能,效果与添加相似数量的人类偏好数据相当。这项工作为改进语言模型对齐的强化学习的成功开辟了新的研究领域,提供了合成偏好生成作为解决奖励模型建模挑战的方案。