基于原始对偶策略优化的可证明高效安全探索

Mar, 2020

基于原始对偶策略优化的可证明高效安全探索

Provably Efficient Safe Exploration via Primal-Dual Policy Optimization

Dongsheng Ding, Xiaohan Wei, Zhuoran Yang, Zhaoran Wang, Mihailo R. Jovanović

TL;DR该论文使用 CMDP 公式研究了安全强化学习（SRL）问题，在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法 - OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION（OPDOP）算法，利用最小二乘策略估计和安全探索额外奖励项来估计值函数。

Abstract

We study the safe reinforcement learning (SRL) problem using the Constrained Markov Decision Process (CMDP) formulation in which an agent aims to maximize the expected total reward subject to a safety constraint on the expected total value of a utility function. We focus on an episodic

safe reinforcement learning constrained markov decision process function approximation exploitation/exploration tradeoff optimistic primal-dual proximal policy optimization

发现论文，激发创造

非平稳目标和约束的可证明高效原始 - 对偶强化学习在 CMDPs 中的应用

本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始 - 对偶强化学习，并提出了具有安全性和适应性的时间变化中安全的 RL 算法，同时建立了动态遗憾界和约束违规界。

Jan, 2022

安全强化学习中的加速原始 - 对偶策略优化

本文提出了一种用于受限 Markov 决策过程 CMDPs 的策略搜索方法 APDO，并在模拟机器人运动任务上实验，结果表明 APDO 比 CMDPs 的现有方法具有更好的采样效率和更快的收敛速度。

Feb, 2018

通过原始 - 对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题，使用一种约束的 Markov 决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

面向有约束 MDPs 的无痛政策优化

研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题，提出了一种泛化的原始 - 对偶框架，用于评估算法表现，实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度，以及并非像其他方法一样需要超参数调整，并通过对合成和 Cartpole 环境的实验证明了其效力和稳健性。

Apr, 2022

CMDP 离策略学习的近似最优原始对偶算法

本研究针对离线数据的约束马尔可夫决策过程问题，引入了单策略集中度系数、提出了 DPDL 算法，并建立了样本复杂度下界，保证无约束违规。

Jul, 2022

基于上置信度的对偶强化学习用于带对抗损失的 CMDP

本文关注于强化学习中保障安全的关键问题，提出一种新的基于置信上限的原始对偶算法，更好地解决了环境参数未知的情况下，限制条件作用下的 regret 分析。

Mar, 2020

在受限马尔可夫决策过程中的真正无悔学习

本文提出了一种基于正则化原始对偶方案的模型为基础的算法，用于学习未知的多约束 CMDP，并证明了该算法在没有误差抵消的情况下能够实现亚线性遗憾。

Feb, 2024

受限 MDP 的安全后验采样与约束违规的界限控制

本研究提出了一种基于后验抽样的强化学习算法 Safe PSRL，它能够在不需要安全策略的前提下有效地平衡探索和开发，并通过采用悲观主义的思想仅受到有界的约束违规，从而在理论和实践上得到了良好的表现。

Jan, 2023

一种具有均匀 PAC 保证的限制 MDP 的策略梯度原始对偶算法

我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始 - 对偶算法，同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证，并在一个简单的 CMDP 示例中进行实证展示，证明了算法收敛至最优策略，而现有算法则表现出振荡性能和约束违规。

Jan, 2024

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019