使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程
本研究提出一种用于模拟搜索的政策梯度搜索方法,通过在线更新神经网络模拟策略,实现避免使用搜索树的效果。在 Hex 上,与 MCTS 相比,PGS 取得了相当的性能,并且使用 PGS 进行专家迭代训练的代理能够在 9x9 Hex 中击败最强的开源 Hex 代理 MoHex 2.0。
Apr, 2019
本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法,称为 MCTSPO,通过使用上界置信度启发式获得更好的探索 - 利用平衡,相对于基于梯度和深度遗传算法的基准,在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。
Dec, 2019
介绍了 Policy Cover-Policy Gradient (PC-PG) 算法,其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡,同时具有强大的模型误差优化保证
Jul, 2020
我们考虑用于赌博机和表格马尔可夫决策过程(MDP)的(随机)softmax 策略梯度(PG)方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛,而不需要设置算法参数。为了解决这个问题,我们借鉴了优化文献的思路,在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。
May, 2024
在非固定环境下,通过结合过时策略的动作价值估计和最新环境模型的在线搜索,我们引入了一种名为 PA-MCTS 的增强蒙特卡洛树搜索方法,该方法解决了时限有限情况下的顺序决策问题,并在与 AlphaZero 和 Deep Q Learning 的对比实验中显示优越性。
Jan, 2024
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
May, 2024
本研究从非凸优化的角度出发,提出一种新的 PG method 变体,利用随机滚动谱估计策略梯度,实现策略梯度的无偏估计,并在严格鞍点假设下,证明了算法的收敛性。最终,实验证明,通过重新设计奖赏函数,可以避免不良鞍点并获得更好的极限点。
Jun, 2019
该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度,如果采用良好的初始策略进行初始化,则收敛速度为 O (1/√T)。此外,针对大类排队马尔可夫决策过程,最大权重策略足以满足我们的初始策略要求并实现 O (1/√T) 的收敛速度。关键是根据 NPG 算法的迭代策略所达到的相对值函数,我们得出了这一结果。
Feb, 2024
通过结合强化学习和计划,提出了一种称为 Policy Augmented MCTS(PA-MCTS)的新型混合决策方法,将策略的动作价值估计结合到 MCTS 中,以更好地适应非稳态环境下的决策制定。经测试,PA-MCTS 相对于标准 MCTS 和纯强化学习能更快地收敛并做出更好的决策。
Feb, 2022
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019