Apr, 2025

通过主动学习实现高效的过程奖励模型训练

TL;DR本研究针对过程奖励模型在大规模语言模型训练中的标注数据获取困难进行了探讨,提出了主动学习方法ActPRM,能够主动选择最不确定的样本进行训练,从而显著降低标注成本。研究结果显示,ActPRM在减少50%标注的同时,取得了相当甚至更好的性能,并在ProcessBench和PRMBench上创造了新的最先进的效果。