BriefGPT.xyz
Feb, 2025
奖励模型识别一致性,而非因果关系
Reward Models Identify Consistency, Not Causality
HTML
PDF
Yuhui Xu, Hanze Dong, Lei Wang, Caiming Xiong, Junnan Li
TL;DR
本研究探讨了奖励模型(RMs)在大型语言模型(LLMs)中对人类偏好的对齐及推理质量提升的重要性。研究发现,现有的奖励模型更关注结构一致性而非因果正确性,表明在评价中理解问题的作用被高估。这些发现促使我们重新审视奖励建模方法,强调需要开发能够关注因果关系的奖励模型。
Abstract
Reward Models
(RMs) play a crucial role in aligning large
Language Models
(LLMs) with
Human Preferences
and enhancing reasoning quality. T
→