随机原始对偶方法和强化学习样本复杂性

Dec, 2016

随机原始对偶方法和强化学习样本复杂性

Stochastic Primal-Dual Methods and Sample Complexity of Reinforcement Learning

Yichen Chen, Mengdi Wang

TL;DR本文研究了马尔可夫决策过程 (MDP) 的最优策略在线估计问题，并提出了一类基于随机原始对偶法的方法，利用 Bellman 方程的内在极小极大对偶性进行优化。这些方法具有小的存储空间和低的计算复杂度，通过观察新的状态转移更新值和策略估计的少数坐标。对于无限时间折扣奖励 MDP，这些 SPD 方法使用 O (|S|^4 |A|^2σ^2/(1-γ)^6ε^2) 的迭代 / 样本数可以高概率地找到绝对 ε- 最优策略，对于有限时间 MDP，迭代次数为 O (|S|^4 |A|^2H^6σ^2/ε^2)。

Abstract

We study the online estimation of the optimal policy of a Markov decision process (MDP). We propose a class of Stochastic Primal-Dual (SPD) methods which exploit the inherent minimax duality of bellman equations. The SPD methods update a few coordinates of the value and policy estimate

markov decision process stochastic primal-dual methods bellman equations policy estimation online learning

发现论文，激发创造

原始 - 对偶 π 学习：对遍历式马尔可夫决策问题的样本复杂度和亚线性运行时间

本文提出了一种基于 Primal-Dual π Learning 的方法，利用线性对偶性更新价值与策略向量以逼近无穷时间和折扣因子为 1 的马尔可夫决策过程的最优策略，并给出了复杂度上界，并且这种方法还能应用于有限状态、有限动作空间以及随机转移概率模型下的计算问题，当情况许可下，此方法可以在次线性时间内解决平均奖励最大化的问题。

Oct, 2017

随机原始对偶 Q 学习

本文介绍了一种新的基于模型且离线的强化学习算法，叫做随机原始 - 对偶 Q 学习，它能够通过任意行为策略的状态 - 动作观察来寻找接近最优策略，并且与标准的 Q 学习相比展现了更好的离线学习能力。

Oct, 2018

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023

离线约束强化学习的低秩 MDP 原始 - 对偶算法

该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法，该算法在折扣无限时间段设置中具有较低的样本复杂度，且支持离线约束强化学习设置。

Feb, 2024

随机镜像下降法高效求解 MDPs

通过基于原始 - 对偶随机镜像下降的统一框架，提供了一种近似求解具有生成模型的无限时域马尔可夫决策过程，同时提出了解决双线性鞍点问题与约束 MDPs 的方法。

Aug, 2020

无模型强化学习：从剪切伪懊恼到样本复杂度

本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策，该算法的成功概率为 (1-p)，且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3))，其中 S 是状态数，A 是行动数，γ 是折扣因子，ε 是一个近似阈值

Jun, 2020

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

基于平均奖励的马尔可夫决策过程更为精确的无模型强化学习

我们提出了多种经过证明有效的无模型强化学习算法，包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法，在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。

Jun, 2023

政策镜像下降算法固有地探索动作空间

本文所提出的新算法不依赖于探索策略，通过引入两个新的基于策略的评估算符和对 SPMD 算法的新颖分析，实现了在线策略梯度方法的样本复杂度的近似上界，无需显式探索，可以避免在寻找最优策略时反复执行潜在的高风险动作，具有更强的收敛性能。

Mar, 2023

双重二元性：用变分原对偶策略优化进行受约束强化学习

在这项研究中，我们通过实施 Lagrangian 和 Fenchel 对偶性，将原始约束问题重构为无约束原始 - 对偶优化问题，以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题，其中访问度量是凸约束。同时，通过将访问度量嵌入到有限维空间中，我们可以通过结合函数逼近来处理较大的状态空间。

Feb, 2024