策略评估的随机方差缩减方法
本文介绍应用随机方差缩减梯度下降(SVRG)到无模型策略梯度中以显著提高其样本效率,并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中,我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。
Oct, 2017
本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法,即 SVRPG,旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题,并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下,我们提供了 SVRPG 的收敛保证,收敛速率在增加批处理大小下呈线性。最后,我们建议实际的 SVRPG 变体,并在连续 MDP 上进行了实证评估。
Jun, 2018
本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从 O(ε^-4)到 O(ε^-3)的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下,该算法在采样 O(ε^-2)次后享有 ε- 全局最优性,这改善了以前已经建立的 O(ε^-3)样本要求。
Dec, 2022
通过随机方差缩减策略梯度方法,我们研究了离散时间线性二次调节器(LQR)问题的学习 ε- 近似解的问题。我们提出了一种适用于有高昂成本的成本函数评估的 Oracle - 有效方法,结合了一点和两点估计的方差缩减算法,在 β ∈ (0,1) 的情况下,仅需 O (log (1/ε)^β) 的两点成本信息即可获得近似最优解。
Sep, 2023
本文研究了马尔可夫噪声下的随机泛型不等式问题,并提出了用于强化学习中的随机策略评估问题的算法,包括改进的标准 TD 算法和快速 TD 算法等。
Nov, 2020
本研究提出一种简单且有效的梯度截断机制,可用于加速政策梯度算法的变化减少技术,进而设计了一种名为 TSIVR-PG 的新方法,它不仅能够最大化累积奖励总和,还能在政策的长期访问分布上最大化一般效用函数,并对 TSIVR-PG 进行了理论分析。
Feb, 2021