随机原始对偶 Q 学习

Oct, 2018

Stochastic Primal-Dual Q-Learning

Donghwan Lee, Niao He

TL;DR本文介绍了一种新的基于模型且离线的强化学习算法，叫做随机原始 - 对偶 Q 学习，它能够通过任意行为策略的状态 - 动作观察来寻找接近最优策略，并且与标准的 Q 学习相比展现了更好的离线学习能力。

Abstract

In this work, we present a new model-free and off-policy reinforcement learning (RL) algorithm, that is capable of finding a near-optimal policy with state-action observations from arbitrary behavior policies. Ou

reinforcement learning off-policy algorithm q-learning convergence

发现论文，激发创造

随机原始对偶方法和强化学习样本复杂性

本文研究了马尔可夫决策过程 (MDP) 的最优策略在线估计问题，并提出了一类基于随机原始对偶法的方法，利用 Bellman 方程的内在极小极大对偶性进行优化。这些方法具有小的存储空间和低的计算复杂度，通过观察新的状态转移更新值和策略估计的少数坐标。对于无限时间折扣奖励 MDP，这些 SPD 方法使用 O (|S|^4 |A|^2σ^2/(1-γ)^6ε^2) 的迭代 / 样本数可以高概率地找到绝对 ε- 最优策略，对于有限时间 MDP，迭代次数为 O (|S|^4 |A|^2H^6σ^2/ε^2)。

Dec, 2016

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023

自适应原始对偶方法的安全强化学习

在这篇论文中，我们提出了自适应原始 - 对偶（APD）方法用于安全强化学习（SRL），并分析和评估了该算法在实际环境中的性能。结果表明，与常数学习率情况相比，实际 APD 算法在训练过程中具有更好的性能和更稳定的训练结果。

Feb, 2024

双重二元性：用变分原对偶策略优化进行受约束强化学习

在这项研究中，我们通过实施 Lagrangian 和 Fenchel 对偶性，将原始约束问题重构为无约束原始 - 对偶优化问题，以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题，其中访问度量是凸约束。同时，通过将访问度量嵌入到有限维空间中，我们可以通过结合函数逼近来处理较大的状态空间。

Feb, 2024

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

离线约束强化学习的低秩 MDP 原始 - 对偶算法

该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法，该算法在折扣无限时间段设置中具有较低的样本复杂度，且支持离线约束强化学习设置。

Feb, 2024

通过原始 - 对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题，使用一种约束的 Markov 决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

基于原始对偶策略优化的可证明高效安全探索

该论文使用 CMDP 公式研究了安全强化学习（SRL）问题，在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法 - OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION（OPDOP）算法，利用最小二乘策略估计和安全探索额外奖励项来估计值函数。

Mar, 2020

原始 - 对偶 π 学习：对遍历式马尔可夫决策问题的样本复杂度和亚线性运行时间

本文提出了一种基于 Primal-Dual π Learning 的方法，利用线性对偶性更新价值与策略向量以逼近无穷时间和折扣因子为 1 的马尔可夫决策过程的最优策略，并给出了复杂度上界，并且这种方法还能应用于有限状态、有限动作空间以及随机转移概率模型下的计算问题，当情况许可下，此方法可以在次线性时间内解决平均奖励最大化的问题。

Oct, 2017

深度原始 - 对偶强化学习：利用贝尔曼对偶加速演员 - 评论家算法

基于深度神经网络的参数 Primal-Dual pi 学习方法，旨在解决马尔可夫决策过程中状态空间大和策略离线学习问题，通过基本线性 Bellman 方法对价值和策略函数进行原始对偶更新，从而更加有效地进行价值和策略更新，在与同类方法比较的测试中表现明显优于最相关的基准方法

Dec, 2017