Sep, 2024

稳健的奖励模型训练缓解奖励操控

TL;DR本研究针对传统奖励模型训练中无法有效区分上下文信号与无关伎俩的限制,提出了一种新的因果框架和数据增强技术,以独立于这些伎俩学习偏好。实验结果表明,新提出的稳健奖励模型显著提高了奖励模型的性能和对齐政策的有效性,显示出更好的效果。