学习即规划:通过蒙特卡罗树搜索实现接近 Bayes 最优强化学习
本研究提出了一种基于蒙特卡洛树搜索 (Monte-Carlo tree search) 的可行的、基于样本的近似贝叶斯最优规划方法,它避免了在搜索树中昂贵的应用贝叶斯规则,通过从当前信念中懒惰地抽样模型。实验证明,与以前的贝叶斯模型为基础的 RL 算法相比,在几个知名的基准问题上,我们的方法表现出了明显的优势。
May, 2012
本文提出一种基于模型的强化学习技术,该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本,并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界,并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。
May, 2018
本文探讨在有限时间马尔可夫决策过程的框架下,基于树形搜索策略的蒙特卡罗树搜索 (MCTS)。提出了一种动态抽样树策略,有效地分配有限的计算预算,以最大化选择最佳根节点动作的正确性概率。实验结果表明,所提出的树策略比其他竞争方法更有效。
Apr, 2022
本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法,通过 1)用于潜在无限奖励问题的新颖行动价值规范机制,2)定义虚拟损失函数实现有效搜索并行化,以及 3)由自我对弈逐代训练的策略网络引导搜索,来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验,结果表明我们的算法在多个游戏宽度上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。
May, 2020
本文介绍了一种名为 Variance-Bonus Monte Carlo Tree Search (VB-MCTS) 的实用、数据效率高的策略学习方法,它是一种基于模型的强化学习方法,应用高斯过程回归估计转变,提出了一种方差奖励来衡量对世界的不确定性,进一步优化了计划,得到了更有效的探究,综合实验结果表明,在困难的疟疾控制任务上,VB-MCTS 优于现有技术。
May, 2021
该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题,在未知参数和固定先验分布的情况下,能够稳定地获得近似最优解,适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。
Jun, 2023
提出了一种名为 DC-MCTS 的计划算法,用于解决目标导向的强化学习问题,该算法通过给出中间子目标来逐步划分初始任务,并独立递归地解决更简单的任务,从而实现改进策略, 使规划顺序具有灵活性,得到了在格子世界和各种连续控制环境中的强大表现。
Apr, 2020
通过将强化学习与蒙特卡洛树搜索相结合,我们提出了一种方法来增强完全可观察环境下自动停车任务的在线路径规划。通过先前的搜索步骤中综合利用先前的知识,状态评估方法对于在高维空间下的基于采样的规划方法可以提高实时系统中的计算效率。在复杂环境下执行自动停车任务的挑战在于传统的解析方式很难构建坚固但轻量级的启发式引导。为了克服这一限制,我们在路径规划框架下提出了一种强化学习流程和蒙特卡洛树搜索的结合。通过迭代学习状态的值以及从上一个周期的结果中选出的最佳动作样本,我们能够建模给定状态的值估计器和策略生成器。通过这样的方式,我们建立了一种探索与利用之间的平衡机制,加速了路径规划过程,并在不使用人工专家驾驶员数据的情况下保持其质量。
Mar, 2024
本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法,称为 MCTSPO,通过使用上界置信度启发式获得更好的探索 - 利用平衡,相对于基于梯度和深度遗传算法的基准,在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。
Dec, 2019
该论文提出了一种名为 MCTSnet 的体系架构,其将基于模拟的搜索嵌入神经网络中,并通过向量嵌入扩展,评估和备份。该网络的参数进行端到端的训练优化,应用于小范围的搜索中,显著优于 MCTS 基线的性能。
Feb, 2018