Jun, 2024

通过 Monte Carlo 树自我精化和 LLaMa-3 8B 获得 GPT-4 级数学奥赛解题方法

TL;DR这篇论文介绍了 MCT Self-Refine (MCTSr) 算法,它是大型语言模型(LLM)与蒙特卡洛树搜索(MCTS)的创新集成,在复杂的数学推理任务中提高性能。通过解决 LLM 在战略和数学推理中的准确性和可靠性挑战,MCTSr 利用系统化的探索和启发式自我精炼机制来改进 LLM 内的决策框架。该算法通过选择、自我精炼、自我评估和反向传播的迭代过程构建蒙特卡洛搜索树,利用改进的 Upper Confidence Bound(UCB)公式优化探索 - 利用平衡。广泛的实验证明了 MCTSr 在解决奥林匹克数学问题方面的效果,显著提高了多个数据集的成功率,包括 GSM8K、GSM Hard、MATH 以及 Math Odyssey、AIME 和 OlympiadBench 等奥林匹克级别基准。该研究推动了 LLM 在复杂推理任务中的应用,为未来的人工智能集成奠定了基础,提高了 LLM 驱动应用中的决策准确性和可靠性。