Oct, 2024

RM-Bench:语言模型奖励模型的细微差别和风格基准测试

TL;DR本研究针对当前奖励模型基准测试中未能有效评估细微内容变化和风格偏见的问题,提出了RM-Bench这一新基准。通过对近40个奖励模型的评估,结果显示当前先进模型在面对风格偏见干扰时,仅达到46.6%的平均性能,表明奖励模型的改进空间巨大,提供了一个可靠的选择参考以提升语言模型的对齐效率。