Apr, 2024

基于先验约束的奖励模型训练方法用于对齐大型语言模型

TL;DR基于先验约束的奖励模型训练方法(即 PCRM)用于调节优化幅度和控制分数间隔,从而通过评估其与人类偏好的排名相关性和在 RL 中对齐 LLMs 的有效性,全面评估 PCRM,实验证明 PCRM 通过有效限制奖励得分的缩放显著提高对齐性能,并可与直接偏好优化等任意基于排名的对齐方法进行一致改进。