截断方差减小的值迭代
提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解,并证明了算法的收敛性和复杂度。同时,结合经典的价值迭代与方差约减技术,改进了该算法的性能,使其具有线性收敛性和渐进最优性。
Oct, 2017
本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从 O(ε^-4)到 O(ε^-3)的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下,该算法在采样 O(ε^-2)次后享有 ε- 全局最优性,这改善了以前已经建立的 O(ε^-3)样本要求。
Dec, 2022
本研究提出一种简单且有效的梯度截断机制,可用于加速政策梯度算法的变化减少技术,进而设计了一种名为 TSIVR-PG 的新方法,它不仅能够最大化累积奖励总和,还能在政策的长期访问分布上最大化一般效用函数,并对 TSIVR-PG 进行了理论分析。
Feb, 2021
我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态 - 动作空间的设置,并展示了简单的策略梯度法的样本复杂度。
Jun, 2023
基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低,确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian-based 技术为基础,确保了预期后悔度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 数量级。这些结果显著提高了该问题的最新研究成果,其后悔度达到了 $\tilde {\mathcal {O}}(T^{3/4})$ 数量级。
Apr, 2024
介绍和分析了一种方差减少的 Q-learning 方法,为具有有限状态和动作空间的折扣 MDPs 提供了相对精确的最优 Q 函数估计,其采样数量与最小极值下界匹配。
Jun, 2019
本论文提出了两种模型无关的算法,分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中,这些算法的理论发现和效率得到了证实。
May, 2023
本文介绍应用随机方差缩减梯度下降(SVRG)到无模型策略梯度中以显著提高其样本效率,并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中,我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。
Oct, 2017
本文提出了一种新的算法 OPDVR 用于离线强化学习中的方差缩减,其能够证明在离线数据情况下,在有限时间内获得最优策略,同时在某些环境设定下具有最优样本复杂度,为离线强化学习的发展提供了新方案。
Feb, 2021