本文研究了在线性二次型调节器问题中寻找最优策略的强化学习方法,并在两个例子中说明了该方法的性能。
Nov, 2020
研究了无模型强化学习中的线性二次调节器问题,建立了梯度流动力学和随机搜索法的指数稳定性,同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。
Dec, 2019
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。
Oct, 2023
研究如何通过强化学习来解决机器人之间进行优化的问题,证明了基于策略梯度方法的算法在均值场问题中能够收敛。
Oct, 2019
该研究探讨了结构性特征对于使得 Policy gradients methods 有权达到最优点的影响,并且当这些条件变强时,可以证明其满足 Polyak-lojasiewicz 条件从而有较快的收敛速度。
Jun, 2019
本研究从非凸优化的角度出发,提出一种新的 PG method 变体,利用随机滚动谱估计策略梯度,实现策略梯度的无偏估计,并在严格鞍点假设下,证明了算法的收敛性。最终,实验证明,通过重新设计奖赏函数,可以避免不良鞍点并获得更好的极限点。
本文研究了策略梯度方法在强化学习中的应用,提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化,并探究了参数化策略和表格化策略参数化的差异,其中一个主要贡献是提供了平均情况下的逼近保证,通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。
Aug, 2019
本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究,经由分析线性二次博弈的梯度播放,得到该算法并不存在全局收敛到 Nash 平衡点的保证,且通过实验发现此类情况并不少见。
Jul, 2019
研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数,可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。
May, 2019
该研究提出了基于策略梯度的无投影序列算法来处理线性二次动力博弈问题,并证明了如果采用自然梯度下降 / 上升,该算法具有对纳什均衡的全局次线性收敛性;此外,如果领导者采用拟牛顿策略,该算法将具有全局二次收敛性。
Nov, 2019