Nov, 2023

数学推理中的规划行为监督验证器

TL;DR利用结果监督进行训练的 Outcome-supervision Value Model (OVM) 通过优先考虑能够导致准确结论的步骤,而非每一步的正确性,从而将多步推理转变为一种规划问题,提供了一种高效而直观的解决方法。在两个多步数学推理数据集 GSM8K 和 Game of 24 上的实验表明,OVM 模型取得了卓越的性能,特别是在 GSM8K 中,OVM-7B 模型在 LLMs 中达到了 13B 参数的最新成果。这些发现为多步推理任务中训练验证器的结果监督作用提供了新的视角,并为其在规划价值估计中的优势提供了理论依据。