通过 Monte Carlo 树自我精化和 LLaMa-3 8B 获得 GPT-4 级数学奥赛解题方法

Jun, 2024

通过 Monte Carlo 树自我精化和 LLaMa-3 8B 获得 GPT-4 级数学奥赛解题方法

Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Di Zhang, Jiatong Li, Xiaoshui Huang, Dongzhan Zhou, Yuqiang Li...

TL;DR这篇论文介绍了 MCT Self-Refine (MCTSr) 算法，它是大型语言模型（LLM）与蒙特卡洛树搜索（MCTS）的创新集成，在复杂的数学推理任务中提高性能。通过解决 LLM 在战略和数学推理中的准确性和可靠性挑战，MCTSr 利用系统化的探索和启发式自我精炼机制来改进 LLM 内的决策框架。该算法通过选择、自我精炼、自我评估和反向传播的迭代过程构建蒙特卡洛搜索树，利用改进的 Upper Confidence Bound（UCB）公式优化探索 - 利用平衡。广泛的实验证明了 MCTSr 在解决奥林匹克数学问题方面的效果，显著提高了多个数据集的成功率，包括 GSM8K、GSM Hard、MATH 以及 Math Odyssey、AIME 和 OlympiadBench 等奥林匹克级别基准。该研究推动了 LLM 在复杂推理任务中的应用，为未来的人工智能集成奠定了基础，提高了 LLM 驱动应用中的决策准确性和可靠性。

Abstract

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of large language models (LLMs) with monte carlo tree search (MCTS), designed to enhance performance in complex →

mctsr algorithm large language models monte carlo tree search strategic reasoning mathematical reasoning

发现论文，激发创造

LiteSearch: 高效的 LLM 树搜索

通过考虑搜索进展和价值网络的引导，本研究介绍了一种新颖的有引导的树搜索算法，用于在可接受的计算成本内提高性能。实验结果显示，该方法不仅具有竞争力的性能，而且相对于基准方法而言计算成本显著降低。

Jun, 2024

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

通过想象力、搜索和批评实现 LLM 的自我提升

AlphaLLM 通过将 Monte Carlo Tree Search (MCTS) 与 LLMs 集成，建立了一个自我改进循环，从而提高了 LLMs 的能力，同时避免了其他额外的注释，实验结果表明 AlphaLLM 显著提高了 LLMs 的性能。

Apr, 2024

无需训练仍可受益。运用能量函数引导的蒙特卡罗树搜索释放大语言模型的数学推理能力

通过使用蒙特卡洛树搜索和轻能量函数，我们对经过微调的大型语言模型进行了改进，提高了数学推理的正确性和步骤，从而在不需要进一步微调或 RLHF 对齐的情况下，将经过微调的模型的一次通过率显著提高。

Sep, 2023

ReST-MCTS*: LLM 自训练通过过程奖励引导的树搜索

基于强化学习的 ReST-MCTS* 方法结合过程奖励模型与树搜索 MCTS*，获取高质量的推理轨迹用于训练策略和奖励模型，在 LLM 自我训练中取得了更高的准确性和性能。

Jun, 2024

通过 GPT 引导的蒙特卡罗树搜索从数据中发现数学公式

SR-GPT 是一种新的符号回归算法，通过将 MCTS 与 GPT 相结合，显著提高了 MCTS 的搜索效率，并利用 MCTS 结果进一步完善 GPT，从而在正确恢复符号表达式方面优于现有的最先进算法。

Jan, 2024

AlphaMath 几乎接近零：无过程的过程监督

利用 Monte Carlo Tree Search (MCTS) 框架和大型语言模型 (LLMs) 自动生成解决步骤和评估信号，训练一个逐步价值模型以提高 LLM 在数学领域中的推理过程。实验证明，采用 LLMs 结合 MCTS 自动生成的解决方案显著提高了模型处理复杂数学推理任务的能力。

May, 2024

大型语言模型能否玩游戏？一种自我对弈方法的案例研究

结合蒙特卡洛树搜索和大型语言模型的创新方法可有效解决决策型游戏问题，提高大型语言模型的性能并处理蒙特卡洛树搜索无法应对的挑战。

Mar, 2024

基于大型语言模型和蒙特卡洛树搜索的多步骤合成验证

使用蒙特卡洛树搜索指导大型语言模型生成在 Dafny、Lean 和 Coq 中验证的程序的方法，该方法称为 VMCTS，在组合 LLM 先验知识和验证器反馈的情况下，提高了开源模型的综合能力，在五个验证编程问题中，VMCTS 以 6 分钟内解决了四个问题，与具有插件和多次尝试的 ChatGPT4 在这些问题上具有竞争力。

Feb, 2024

蒙特卡洛树搜索：近期修改和应用综述

本文调查了 Monte Carlo Tree Search (MCTS) 在领域特定修改和混合方法方面的应用，这种方法依赖于智能树搜索并平衡探索和利用。

Mar, 2021