Feb, 2025

奖励模型识别一致性,而非因果关系

TL;DR本研究探讨了奖励模型(RMs)在大型语言模型(LLMs)中对人类偏好的对齐及推理质量提升的重要性。研究发现,现有的奖励模型更关注结构一致性而非因果正确性,表明在评价中理解问题的作用被高估。这些发现促使我们重新审视奖励建模方法,强调需要开发能够关注因果关系的奖励模型。