Jun, 2024

通过自动流程监督来改善语言模型中的数学推理

TL;DR我们提出了一种新颖的分而治之式蒙特卡洛树搜索(MCTS)算法 OmegaPRM,用于有效地收集高质量的过程监督数据,进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率,相较于现有方法,我们的方法在财务和计算上都具有成本效益。