Dec, 2023

数学牧人:一种无需标签的逐步验证器,用于数学推理中的 LLMs

TL;DRMath-Shepherd 是一种创新的过程导向数学验证器,使用自动生成的过程级监督数据进行训练,通过对 LLM 的输出逐步赋予奖励分数来解决复杂多步骤数学问题,指导一系列开源 LLMs 取得了非凡的性能,并在自洽性方法和其他验证模型方面表现优异,我们相信自动过程监督对 LLM 的未来演进具有重要潜力。