蒙特卡罗树搜索中经过状态占用正则化的可证明高效长期探索
该研究通过合理连接基于MCTS的两种不同种类算法来实现在短时间内寻求合理 good action,同时保持BRUE算法的优秀的收敛性能和指数级性能提高的保障。
Sep, 2013
DisCo算法采用新颖的基于模型的方法,通过同时发现新的状态和提高计算目标策略的模型估计的准确性来达到对未知环境进行探索的目的,并在任何有成本限制的最短路径问题中返回一个接近于最优解的策略。
Dec, 2020
研究提出两种方法来提高蒙特卡罗树搜索(Monte-Carlo Tree Search,MCTS)算法中的收敛速率和探索程度,基于引入的备份操作与熵正则化,提供强有力的理论保证,实验证明方法有效。
Feb, 2022
本文探讨在有限时间马尔可夫决策过程的框架下,基于树形搜索策略的蒙特卡罗树搜索(MCTS)。提出了一种动态抽样树策略,有效地分配有限的计算预算,以最大化选择最佳根节点动作的正确性概率。实验结果表明,所提出的树策略比其他竞争方法更有效。
Apr, 2022
本文提出了Continuous Monte Carlo Graph Search(CMCGS),一种将Monte Carlo Tree Search(MCTS)扩展到连续状态和动作空间的在线规划方法,并在DeepMind Control Suite基准测试和2D导航任务中表现优异。
Oct, 2022
AmEx-MCTS is a novel formulation of Monte-Carlo tree search that decouples value updates, visit count updates, and the selected path, resulting in a considerably broader search using identical computational resources and surpassing classical MCTS and related approaches.
Feb, 2024
通过将强化学习与蒙特卡洛树搜索相结合,我们提出了一种方法来增强完全可观察环境下自动停车任务的在线路径规划。通过先前的搜索步骤中综合利用先前的知识,状态评估方法对于在高维空间下的基于采样的规划方法可以提高实时系统中的计算效率。在复杂环境下执行自动停车任务的挑战在于传统的解析方式很难构建坚固但轻量级的启发式引导。为了克服这一限制,我们在路径规划框架下提出了一种强化学习流程和蒙特卡洛树搜索的结合。通过迭代学习状态的值以及从上一个周期的结果中选出的最佳动作样本,我们能够建模给定状态的值估计器和策略生成器。通过这样的方式,我们建立了一种探索与利用之间的平衡机制,加速了路径规划过程,并在不使用人工专家驾驶员数据的情况下保持其质量。
Mar, 2024
在这项工作中,我们介绍了一种使用拉格朗日引导的蒙特卡洛树搜索和全局双上升来解决大规模约束部分可观察的马尔可夫决策过程(CPOMDPs)在线问题的方法。我们展示了全局双参数能导致在探索阶段产生短视的动作选择,从而最终导致次优的决策。为了解决这个问题,我们引入了依赖于历史的双变量,用于指导局部动作选择,并通过递归双上升进行优化。我们通过在一个示例和两个大型CPOMDPs上的实证比较来展示我们方法的性能,证明了改进的探索和更安全的结果。
Mar, 2024
此研究以蒙特卡洛树搜索方法为基础,介绍了最大熵树搜索(MENTS)的局限性,并提出了两种新算法,Boltzmann树搜索(BTS)和Decaying熵树搜索(DENTS),以解决这些局限性,并保留了Boltzmann策略的优势。通过实证分析,发现这些算法在多个基准领域,包括围棋游戏,都能保持高性能。
Apr, 2024
基于组合结构的行为抽象可以提高蒙特卡洛树搜索在具有复杂动作空间问题上的效率。本研究通过学习一个潜在的动态模型和辅助网络,构建了一种状态条件行为抽象方法,用于减少搜索空间并提高采样效率,并在实验中展示了其比传统MuZero方法更好的采样效率。
Jun, 2024