Mar, 2024

RewardBench:评估语言建模的奖励模型

TL;DRRewardBench 是一个用于评估奖励模型的基准数据集和代码库,旨在增强对奖励模型科学理解的同时,深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示 - 赢 - 输三元组,我们对通过各种方法训练的奖励模型进行了评估,并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现,以促进对 RLHF 过程的更好理解。