有限时间内的带噪声线性二次调节器的策略梯度方法
研究了无模型强化学习中的线性二次调节器问题,建立了梯度流动力学和随机搜索法的指数稳定性,同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。
Dec, 2019
本文探讨了离散时间线性二次调节器问题,并从后退视角政策梯度的角度重新审视它,介绍了 RHPG 用于控制应用的无模型学习框架,并提供了一种精细的样本复杂性分析方法,以学习在不知道稳定控制策略情况下的控制策略,并证明了 RHPG 在具有流线型分析的线性控制和估计中的普遍适用性。
Feb, 2023
该研究提出并分析了两种新的策略学习方法:正则化策略梯度(RPG)和迭代策略优化(IPO),用于一类基于无限时间地奖励折扣的线性二次调节器(LQR)问题,该问题通过熵正则化进行优化。在假设能够准确评估策略的情况下,这两种方法都被证明在找到正则化 LQR 的最佳策略时具有线性收敛性。此外,一旦进入最佳策略周围的局部区域,IPO 方法可以实现超线性收敛率。最后,当将来自已知环境中的 RL 问题的最佳策略适当转移为未知环境中的 RL 问题的初始策略时,如果后者与前者足够接近,则 IPO 方法可以实现超线性收敛率。通过数值示例支持这些提出的算法的表现。
Nov, 2023
本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究,经由分析线性二次博弈的梯度播放,得到该算法并不存在全局收敛到 Nash 平衡点的保证,且通过实验发现此类情况并不少见。
Jul, 2019
本研究从非凸优化的角度出发,提出一种新的 PG method 变体,利用随机滚动谱估计策略梯度,实现策略梯度的无偏估计,并在严格鞍点假设下,证明了算法的收敛性。最终,实验证明,通过重新设计奖赏函数,可以避免不良鞍点并获得更好的极限点。
Jun, 2019
开发了具有全局最优性保证和复杂度分析的政策梯度方法,用于处理模型不匹配下的鲁棒强化学习,提出了鲁棒策略梯度和平滑的鲁棒策略梯度方法,并将方法推广到广泛的非模型设置下,提供了仿真结果证明了方法的鲁棒性。
May, 2022
该研究提出了基于策略梯度的无投影序列算法来处理线性二次动力博弈问题,并证明了如果采用自然梯度下降 / 上升,该算法具有对纳什均衡的全局次线性收敛性;此外,如果领导者采用拟牛顿策略,该算法将具有全局二次收敛性。
Nov, 2019
通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。
Oct, 2023