进一步改进 PPO 算法：基于值导向的蒙特卡罗树搜索解码

Sep, 2023

进一步改进 PPO 算法：基于值导向的蒙特卡罗树搜索解码

Making PPO even better: Value-Guided Monte-Carlo Tree Search decoding

Jiacheng Liu, Andrew Cohen, Ramakanth Pasunuru, Yejin Choi, Hannaneh Hajishirzi...

TL;DR通过将 MCTS 与 PPO 集成，在推断时生成自然语言文本，相较于仅使用 PPO 策略，PPO-MCTS 极大地提高了生成文本的优越性，减少了训练和测试之间的部分输出评分机制不匹配的问题，证明了搜索算法在与 PPO 进行对齐的语言模型上的潜力和价值网络的未充分探索的好处。

Abstract

inference-time search algorithms such as monte-carlo tree search (MCTS) may seem unnecessary when generating natural language text based on state-of-the-art reinforcement learning such as →

inference-time search algorithms monte-carlo tree search proximal policy optimization ppo-mcts text generation tasks

发现论文，激发创造

蒙特卡罗树搜索用于策略优化

本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法，称为 MCTSPO，通过使用上界置信度启发式获得更好的探索 - 利用平衡，相对于基于梯度和深度遗传算法的基准，在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。

Dec, 2019

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

多策略价值蒙特卡罗树搜索

介绍了一种名为多策略值 MCTS (MPV-MCTS) 的新方法，它结合了多个不同大小的策略值神经网络 (PV-NN)，以平衡精确状态估计和更多的 MCTS 模拟，以提升游戏运行代理的性能。在 NoGo 游戏和 AZ 训练中，与单个 PV-NN 结合策略值 MCTS 相比，MPV-MCTS 表现更好。

May, 2019

基于提示的蒙特卡罗树搜索用于面向目标的对话策略规划

提出 GDP-Zero，该方法使用 Open-Loop MCTS 进行目标导向的对话策略规划，不需要进行任何模型训练，其响应在交互式评估中被认为是 ChatGPT 的 59.32%，而在说服力方面更有优势。

May, 2023

策略梯度搜索：无需搜索树的在线规划和专家迭代

本研究提出一种用于模拟搜索的政策梯度搜索方法，通过在线更新神经网络模拟策略，实现避免使用搜索树的效果。在 Hex 上，与 MCTS 相比，PGS 取得了相当的性能，并且使用 PGS 进行专家迭代训练的代理能够在 9x9 Hex 中击败最强的开源 Hex 代理 MoHex 2.0。

Apr, 2019

蒙特卡罗树搜索中价值备份和探索的统一视角

研究提出两种方法来提高蒙特卡罗树搜索 (Monte-Carlo Tree Search，MCTS) 算法中的收敛速率和探索程度，基于引入的备份操作与熵正则化，提供强有力的理论保证，实验证明方法有效。

Feb, 2022

使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程

本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略，旨在克服两种方法在应对非马尔可夫决策过程上的困难，有效提升算法的效率。

Jun, 2022

通过 GPT 引导的蒙特卡罗树搜索从数据中发现数学公式

SR-GPT 是一种新的符号回归算法，通过将 MCTS 与 GPT 相结合，显著提高了 MCTS 的搜索效率，并利用 MCTS 结果进一步完善 GPT，从而在正确恢复符号表达式方面优于现有的最先进算法。

Jan, 2024

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020