如何在强化学习中结合树搜索方法

AAAISep, 2018

如何在强化学习中结合树搜索方法

How to Combine Tree-Search Methods in Reinforcement Learning

Yonathan Efroni, Gal Dalal, Bruno Scherrer, Shie Mannor

TL;DR研究了强化学习中的有限时间先见策略，提出使用树路径回报备份根节点后代的值来增强现有方法，以解决值函数传播不收缩的问题。

Abstract

Finite-horizon lookahead policies are abundantly used in Reinforcement Learning and demonstrate impressive empirical success. Usually, the lookahead policies are implemented with specific planning methods such as Monte Carlo Tree Search (e.g. in AlphaZero). Referring to the planning pr

reinforcement learning monte carlo tree search lookahead policies convergence value backup

发现论文，激发创造

强化学习中基于反馈的树搜索

本文提出一种基于模型的强化学习技术，该技术将 Monte-Carlo 树搜索应用于无限期 Marov 决策过程的有限期版本，并使用值函数和策略函数的组合来规定有限期问题的终端条件或决策树的叶节点评估器。作者还提供了第一个基于树搜索的强化学习算法的样本复杂度边界，并证明由深度神经网络实现的技术能够创建一种竞争性人工智能代理。

May, 2018

蒙特卡罗树搜索中价值备份和探索的统一视角

研究提出两种方法来提高蒙特卡罗树搜索 (Monte-Carlo Tree Search，MCTS) 算法中的收敛速率和探索程度，基于引入的备份操作与熵正则化，提供强有力的理论保证，实验证明方法有效。

Feb, 2022

在线和近似强化学习中的多步贪心策略

本文研究了使用多步贪婪算法的实际应用，发现在软策略更新时，只有更新步长足够大，才能保证单调策略改进，提出了组合在线和近似算法。

May, 2018

蒙特卡罗树搜索用于策略优化

本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法，称为 MCTSPO，通过使用上界置信度启发式获得更好的探索 - 利用平衡，相对于基于梯度和深度遗传算法的基准，在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。

Dec, 2019

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

强化学习中超越单步贪心方法

本文研究了改进策略和评估策略之间交替的着名 Policy Iteration 算法，以及其变体中多步向前的政策改进，形成了多步政策改进的变量，导出了新的算法并证明了其收敛性。此外，文章还展示了近期著名的强化学习算法实际上是我们框架的实例，阐明了它们的经验成功，为未来研究提供了推导新算法的方法。

Feb, 2018

基于策略迭代和蒙特卡罗策略评估的强化学习收敛性

本文提出解决一种强化学习中的长期悬而未决的问题，通过使用前瞻而非简单的贪心策略迭代来提高策略，同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。

Jan, 2023

带函数逼近的收敛树备份和 Retrace 方法

该论文通过分析 extsc {Tree Backup} 和 extsc {Retrace} 算法在线性函数逼近下的不稳定性，提出了一种基于二次凸凹鞍点公式的稳定高效梯度下降算法，并证明了其收敛性和有限样本上界，同时还提供了对其他算法收敛速度的新证明。

May, 2017

一种高效的动态采样策略用于蒙特卡洛树搜索

本文探讨在有限时间马尔可夫决策过程的框架下，基于树形搜索策略的蒙特卡罗树搜索 (MCTS)。提出了一种动态抽样树策略，有效地分配有限的计算预算，以最大化选择最佳根节点动作的正确性概率。实验结果表明，所提出的树策略比其他竞争方法更有效。

Apr, 2022

Monte-Carlo 树搜索作为正则化策略优化

展示 AlphaZero 的 heuristics 可以近似于规则化策略优化问题的解，并通过提出一种利用此解的变量来实现，实验表明该算法在多个领域中可靠地优于原始算法。

Jul, 2020