优化蒙特卡洛树搜索以增强冻结湖环境中的决策能力

Sep, 2024

优化蒙特卡洛树搜索以增强冻结湖环境中的决策能力

Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment

Esteban Aldana Guerra

TL;DR本研究针对传统强化学习任务“冻结湖”环境中的复杂决策问题，提出了一种优化的蒙特卡洛树搜索（MCTS）实现。通过结合累积奖励和访问计数表，以及上置信界（UCT）公式，该方法显著提高了学习效率，实验结果显示其在随机性环境中有效地提高了奖励最大化和成功率，缩短了收敛时间。

Abstract

Monte Carlo Tree Search (MCTS) is a powerful algorithm for solving complex Decision-Making problems. This paper presents an optimized MCTS implementation applied to the FrozenLake environment, a classic

发现论文，激发创造

学习即规划：通过蒙特卡罗树搜索实现接近Bayes最优强化学习

使用前向搜索稀疏采样算法（FSSS）可以实现接近 Bayes 最优行为，从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程（MDPs）。

Feb, 2012

蒙特卡罗规划：理论上的快速收敛遇见实际上的高效率

该研究通过合理连接基于MCTS的两种不同种类算法来实现在短时间内寻求合理 good action，同时保持BRUE算法的优秀的收敛性能和指数级性能提高的保障。

Sep, 2013

强化学习中基于反馈的树搜索

本文提出一种基于模型的强化学习技术，该技术将Monte-Carlo树搜索应用于无限期Marov决策过程的有限期版本，并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界，并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

May, 2018

蒙特卡罗树搜索用于策略优化

本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法，称为MCTSPO，通过使用上界置信度启发式获得更好的探索-利用平衡，相对于基于梯度和深度遗传算法的基准，在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。

Dec, 2019

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于Monte-Carlo Tree Search和深度强化学习相结合的方法的搜索算法，通过1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏SameGame上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

Monte-Carlo树搜索作为正则化策略优化

展示AlphaZero的heuristics可以近似于规则化策略优化问题的解，并通过提出一种利用此解的变量来实现，实验表明该算法在多个领域中可靠地优于原始算法。

Jul, 2020

带策略增强蒙特卡罗树搜索的非静态环境决策

通过结合强化学习和计划，提出了一种称为Policy Augmented MCTS（PA-MCTS）的新型混合决策方法，将策略的动作价值估计结合到MCTS中，以更好地适应非稳态环境下的决策制定。经测试，PA-MCTS相对于标准MCTS和纯强化学习能更快地收敛并做出更好的决策。

Feb, 2022

一种高效的动态采样策略用于蒙特卡洛树搜索

本文探讨在有限时间马尔可夫决策过程的框架下，基于树形搜索策略的蒙特卡罗树搜索(MCTS)。提出了一种动态抽样树策略，有效地分配有限的计算预算，以最大化选择最佳根节点动作的正确性概率。实验结果表明，所提出的树策略比其他竞争方法更有效。

Apr, 2022

使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程

本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略，旨在克服两种方法在应对非马尔可夫决策过程上的困难，有效提升算法的效率。

Jun, 2022

在转移不确定性条件下的蒙特卡洛树搜索

研究纸中提出了一种改进Monte Carlo Tree Search (MCTS)框架的算法，它能够在环境模型存在不完全时搜索更加确定的转换，从而提高搜索行为和性能。

Dec, 2023