如何在强化学习中结合树搜索方法
本文提出一种基于模型的强化学习技术,该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本,并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界,并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。
May, 2018
研究提出两种方法来提高蒙特卡罗树搜索 (Monte-Carlo Tree Search,MCTS) 算法中的收敛速率和探索程度,基于引入的备份操作与熵正则化,提供强有力的理论保证,实验证明方法有效。
Feb, 2022
本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法,称为 MCTSPO,通过使用上界置信度启发式获得更好的探索 - 利用平衡,相对于基于梯度和深度遗传算法的基准,在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。
Dec, 2019
本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法,通过 1)用于潜在无限奖励问题的新颖行动价值规范机制,2)定义虚拟损失函数实现有效搜索并行化,以及 3)由自我对弈逐代训练的策略网络引导搜索,来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验,结果表明我们的算法在多个游戏宽度上优于基准算法,并与公共状态搜索问题的最新算法竞争力相当。
May, 2020
本文研究了改进策略和评估策略之间交替的着名 Policy Iteration 算法,以及其变体中多步向前的政策改进,形成了多步政策改进的变量,导出了新的算法并证明了其收敛性。此外,文章还展示了近期著名的强化学习算法实际上是我们框架的实例,阐明了它们的经验成功,为未来研究提供了推导新算法的方法。
Feb, 2018
本文提出解决一种强化学习中的长期悬而未决的问题,通过使用前瞻而非简单的贪心策略迭代来提高策略,同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。
Jan, 2023
该论文通过分析 extsc {Tree Backup} 和 extsc {Retrace} 算法在线性函数逼近下的不稳定性,提出了一种基于二次凸凹鞍点公式的稳定高效梯度下降算法,并证明了其收敛性和有限样本上界,同时还提供了对其他算法收敛速度的新证明。
May, 2017
本文探讨在有限时间马尔可夫决策过程的框架下,基于树形搜索策略的蒙特卡罗树搜索 (MCTS)。提出了一种动态抽样树策略,有效地分配有限的计算预算,以最大化选择最佳根节点动作的正确性概率。实验结果表明,所提出的树策略比其他竞争方法更有效。
Apr, 2022
展示 AlphaZero 的 heuristics 可以近似于规则化策略优化问题的解,并通过提出一种利用此解的变量来实现,实验表明该算法在多个领域中可靠地优于原始算法。
Jul, 2020