Jun, 2024
奖励和策略模型在强化学习中的无缝衔接探讨
It Takes Two: On the Seamlessness between Reward and Policy Model in
RLHF
TL;DR借助强化学习从人类反馈中进行训练,通过训练策略模型和奖励模型来使语言模型与人类偏好相一致;我们提出了研究对策略模型和奖励模型之间的交互作用进行微调的无缝度概念,探索了其对性能的影响,并引入了自动度量标准SEAM来度量两者之间的无缝度。实验证明,利用SEAM进行数据选择和模型增强可以显著提高强化学习从人类反馈中的性能。