乐观自然策略梯度:一种简单高效的在线强化学习策略优化框架
本文提出了一种新的算法框架来设计和分析具有理论保证的基于模型的强化学习算法,该框架将不确定性原则扩展到非线性动态模型,其中模型SLBO在连续控制基准任务上实现了最先进的性能。
Jul, 2018
为了证明策略优化算法的收敛性,本篇论文开发出了一种新的方法,该方法使用非统计方法提供了$ extit{非渐进}$收敛保证,并专注于受softmax参数化限制的比例调节的策略梯度算法, 重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛呈线性或甚至二次收敛速度,考虑到算法的稳定性,收敛结果适应了广泛的学习速率,并阐明了熵正则化在实现快速收敛方面的作用。
Jul, 2020
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题——在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程(MDP) 中解决了这个问题。我们还提出了一个新的混合离线/在线策略微调算法,达到了更好的样本复杂度。
Jun, 2021
通过提出一种名为PROPO的算法,本文研究了非稳态线性核马尔科夫决策过程中的史诗强化学习,它是第一个可以处理非稳态的可证明有效的策略优化算法。
Oct, 2021
本文提出了一种 LPO 算法来解决强化学习中的政策优化问题,其中包括限制 eluder 维度和在线灵敏度采样等最近进展的应用,可以实现一定程度的非线性函数逼近,通过使用深度神经网络验证了理论方法的成果。
Jun, 2023
本文介绍了一种新的自然策略梯度变体NPG-HM,它利用Hessian辅助的动量技术用于方差减少,子问题则通过随机梯度下降方法求解。研究结果表明,NPG-HM在一般Fisher非退化策略参数化下,能够以样本复杂度O(ε^−2)达到全局最后迭代ε-最优性,并且该方法在处理子问题时具有松弛的弱梯度优势特性和错误分解的便捷方式。此外,基于Mujoco环境的数值实验结果显示NPG-HM在性能上优于其他最先进的策略梯度方法。
Jan, 2024
该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度,如果采用良好的初始策略进行初始化,则收敛速度为O(1/√T)。此外,针对大类排队马尔可夫决策过程,最大权重策略足以满足我们的初始策略要求并实现O(1/√T)的收敛速度。关键是根据NPG算法的迭代策略所达到的相对值函数,我们得出了这一结果。
Feb, 2024
本研究考虑了在强化学习环境中状态空间任意大、甚至可数无限的政策优化方法,重点是通信网络、匹配市场和其他排队系统的控制问题。我们研究了自然策略梯度 (Natural Policy Gradient, NPG) 在有限状态空间上的流行算法。在合理的假设下,我们得到了 NPG 的性能上界,该上界与状态空间的大小无关,只要策略评估误差在真实值函数的某个倍数内。我们通过建立关于 Poisson 方程解(即相对值函数)的新的与策略无关的界限,并将这些界限与先前已知的马尔可夫决策过程 (MDP) 和从专家学习的联系相结合,得到了这个结果。
May, 2024
我们研究了非时序强化学习(RL)的问题,其中系统动态未知,并且RL代理需要从单个轨迹中学习,即没有重置。我们提出了Nonepisodic Optimistic RL(NeoRL),这是一种基于乐观原则面对未知动态的方法。NeoRL使用经过良好校准的概率模型,并在对未知动态的认知不确定性方面进行乐观规划。在对系统连续性和有界能量的假设下,我们提供了第一个适用于具有高斯过程动态的一般非线性系统的遗憾边界为O(β_T√(TΓ_T))。我们将NeoRL与其他基准在几个深度RL环境上进行比较,并经验证明NeoRL实现了最佳平均成本,同时产生了最小的遗憾。
Jun, 2024