Feb, 2024

ODIN: 异构奖励减轻 RLHF 中的黑客攻击

TL;DR通过建立评估协议和使用共享特征表示的两个线性头部,训练模型以预测奖励,一个与长度相关,另一个与长度无关,从而更关注实际内容,以减少奖励与长度的相关性并显著提高策略的性能。