BriefGPT.xyz
Ask
alpha
关键词
outcome-supervision value model
搜索结果 - 1
数学推理中的规划行为监督验证器
利用结果监督进行训练的 Outcome-supervision Value Model (OVM) 通过优先考虑能够导致准确结论的步骤,而非每一步的正确性,从而将多步推理转变为一种规划问题,提供了一种高效而直观的解决方法。在两个多步数学推理
→
PDF
8 months ago
Prev
Next