Jan, 2025
PRMBench:一个细粒度且具有挑战性的过程级奖励模型基准
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level
Reward Models
TL;DR本研究针对现有的过程级奖励模型(PRMs)评估不足的问题,提出了PRMBench基准,旨在系统性地评估PRMs在细粒度错误检测能力上的表现。通过设计6216个问题和83456个步骤级标签,研究揭示了当前PRMs的重大缺陷,强调了过程级评估的挑战,并为未来研究指明了方向。