截断方差减小的值迭代

May, 2024

Truncated Variance Reduced Value Iteration

Yujia Jin, Ishani Karmarkar, Aaron Sidford, Jiayi Wang

TL;DR我们提供了一种更快的随机算法，用于在具有有限状态动作对、有界奖励和折扣因子的折扣马尔可夫决策过程中计算 ε- 最优策略。我们通过在采样设置和离线设置中提供不同的时间算法，进一步优化了之前的最先进技术。我们的方法基于先前的随机方差减少值迭代方法，通过引入新的方差减少采样过程并优化其迭代进展，能够在没有模型的情况下实现，并在模型自由和基于模型方法之间填补了样本复杂性差距。

Abstract

We provide faster randomized algorithms for computing an $\epsilon$-optimal policy in a discounted markov decision process with $A_{\text{tot}}$-state-action pairs, bounded rewards, and →

randomized algorithms markov decision process discount factor sampling setting model-free methods

发现论文，激发创造

降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法

提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解，并证明了算法的收敛性和复杂度。同时，结合经典的价值迭代与方差约减技术，改进了该算法的性能，使其具有线性收敛性和渐进最优性。

Oct, 2017

方差降低的保守策略迭代

本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从 O（ε^-4）到 O（ε^-3）的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下，该算法在采样 O（ε^-2）次后享有 ε- 全局最优性，这改善了以前已经建立的 O（ε^-3）样本要求。

Dec, 2022

策略梯度方差减少方法的收敛和样本效率

本研究提出一种简单且有效的梯度截断机制，可用于加速政策梯度算法的变化减少技术，进而设计了一种名为 TSIVR-PG 的新方法，它不仅能够最大化累积奖励总和，还能在政策的长期访问分布上最大化一般效用函数，并对 TSIVR-PG 进行了理论分析。

Feb, 2021

具有递归方差降低的高效策略梯度方法

该研究旨在提高强化学习中采样效率，通过提出一种名为 SRVR-PG 的新型策略梯度算法，并对其进行了数值实验以验证其性能。

Sep, 2019

通用效用的强化学习：更简单的方差缩减和大状态行动空间

我们提出了一种更简单的单循环，无参数归一化策略梯度算法，用于解决具有一般效用的强化学习问题，其中包括约束强化学习，纯探索以及从演示中学习等问题，同时通过线性函数逼近解决大状态 - 动作空间的设置，并展示了简单的策略梯度法的样本复杂度。

Jun, 2023

无限时间平均回报马尔可夫决策过程的方差减少政策梯度方法

基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低，确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian-based 技术为基础，确保了预期后悔度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 数量级。这些结果显著提高了该问题的最新研究成果，其后悔度达到了 $\tilde {\mathcal {O}}(T^{3/4})$ 数量级。

Apr, 2024

方差缩减 $Q$- 学习达到了最小极差优化

介绍和分析了一种方差减少的 Q-learning 方法，为具有有限状态和动作空间的折扣 MDPs 提供了相对精确的最优 Q 函数估计，其采样数量与最小极值下界匹配。

Jun, 2019

方差减少的分布鲁棒 Q 学习的样本复杂性

本论文提出了两种模型无关的算法，分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中，这些算法的理论发现和效率得到了证实。

May, 2023

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

通过双方差降低近似最优离线强化学习

本文提出了一种新的算法 OPDVR 用于离线强化学习中的方差缩减，其能够证明在离线数据情况下，在有限时间内获得最优策略，同时在某些环境设定下具有最优样本复杂度，为离线强化学习的发展提供了新方案。

Feb, 2021