May, 2024

AlphaMath 几乎接近零:无过程的过程监督

TL;DR利用 Monte Carlo Tree Search (MCTS) 框架和大型语言模型 (LLMs) 自动生成解决步骤和评估信号,训练一个逐步价值模型以提高 LLM 在数学领域中的推理过程。实验证明,采用 LLMs 结合 MCTS 自动生成的解决方案显著提高了模型处理复杂数学推理任务的能力。