带策略增强蒙特卡罗树搜索的非静态环境决策

Feb, 2022

Decision Making in Non-Stationary Environments with Policy-Augmented Monte Carlo Tree Search

Geoffrey Pettet, Ayan Mukhopadhyay, Abhishek Dubey

TL;DR通过结合强化学习和计划，提出了一种称为Policy Augmented MCTS（PA-MCTS）的新型混合决策方法，将策略的动作价值估计结合到MCTS中，以更好地适应非稳态环境下的决策制定。经测试，PA-MCTS相对于标准MCTS和纯强化学习能更快地收敛并做出更好的决策。

Abstract

decision-making under uncertainty (DMU) is present in many important problems. An open challenge is DMU in non-stationary environments, wh

发现论文，激发创造

使用前向搜索稀疏采样算法（FSSS）可以实现接近 Bayes 最优行为，从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程（MDPs）。

Feb, 2012

提出了一种名为DC-MCTS的计划算法，用于解决目标导向的强化学习问题，该算法通过给出中间子目标来逐步划分初始任务，并独立递归地解决更简单的任务，从而实现改进策略，使规划顺序具有灵活性，得到了在格子世界和各种连续控制环境中的强大表现。

Apr, 2020

本文探讨在有限时间马尔可夫决策过程的框架下，基于树形搜索策略的蒙特卡罗树搜索(MCTS)。提出了一种动态抽样树策略，有效地分配有限的计算预算，以最大化选择最佳根节点动作的正确性概率。实验结果表明，所提出的树策略比其他竞争方法更有效。

Apr, 2022

本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略，旨在克服两种方法在应对非马尔可夫决策过程上的困难，有效提升算法的效率。

Jun, 2022

我们研究如何高效地结合形式方法、蒙特卡洛树搜索(Monte Carlo Tree Search，MCTS)和深度学习，以在大型马尔可夫决策过程(Markov Decision processes，MDPs)中生成高质量的滞后视野策略。

Aug, 2023

研究纸中提出了一种改进Monte Carlo Tree Search (MCTS)框架的算法，它能够在环境模型存在不完全时搜索更加确定的转换，从而提高搜索行为和性能。

Dec, 2023

在处理非平稳环境的序贯决策问题中，我们提出了一种自适应蒙特卡洛树搜索算法，通过学习环境的更新动态来改进决策过程，减少过分悲观的行为并提高决策速度。

Jan, 2024

在非固定环境下，通过结合过时策略的动作价值估计和最新环境模型的在线搜索，我们引入了一种名为PA-MCTS的增强蒙特卡洛树搜索方法，该方法解决了时限有限情况下的顺序决策问题，并在与AlphaZero和Deep Q Learning的对比实验中显示优越性。

Jan, 2024

本研究旨在解决离线强化学习中的Markov决策问题，提出利用引导策略来提升表现。通过将蒙特卡罗树搜索（MCTS）作为引导，研究表明这种方法显著改善了强化学习代理的性能，超越了各方法单独使用的效果。

Aug, 2024

本研究针对传统强化学习任务“冻结湖”环境中的复杂决策问题，提出了一种优化的蒙特卡洛树搜索（MCTS）实现。通过结合累积奖励和访问计数表，以及上置信界（UCT）公式，该方法显著提高了学习效率，实验结果显示其在随机性环境中有效地提高了奖励最大化和成功率，缩短了收敛时间。

Sep, 2024