学习具有非静态奖励和约束条件的受限马尔可夫决策过程

May, 2024

学习具有非静态奖励和约束条件的受限马尔可夫决策过程

Learning Constrained Markov Decision Processes With Non-stationary Rewards and Constraints

Francesco Emanuele Stradi, Anna Lunghi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti

TL;DR通过提供性能逐渐降低的算法，在具有非平稳奖励和约束的受限马尔可夫决策过程中缓解了在与最佳策略竞争时达到亚线性遗憾和亚线性约束违规的关键不可能结果。

Abstract

In constrained markov decision processes (cmdps) with adversarial rewards and constraints, a well-known impossibility result prevents any

constrained markov decision processes adversarial rewards non-stationary rewards cmdps bandit feedback

发现论文，激发创造

学习具有随机硬约束的对抗式马尔可夫决策过程

我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程（CMDP）中的在线学习问题。我们设计了两种不同的情景，第一种是在一般 CMDP 中实现次线性遗憾和累积正约束违规的算法。第二种情景下，我们假设策略存在且对学习者已知，并设计了一个算法，确保次线性遗憾的同时，高概率满足所有回合的约束。据我们所知，我们的工作是第一个研究同时涉及对抗性损失和硬约束的 CMDP。这些算法可处理一般非平稳环境中的要求，要求比现有算法处理的要严格得多，从而能够在更广范围的实际应用中采用，包括自动驾驶、在线广告和推荐系统。

Mar, 2024

约束马尔科夫决策过程的更快算法和更精细分析

本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题，通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法，全局收敛至凸优化下的凸约束，显示了目前已有的原始对偶算法无法达到的最优复杂度 O (1/ε)。

Oct, 2021

在受限马尔可夫决策过程中的真正无悔学习

本文提出了一种基于正则化原始对偶方案的模型为基础的算法，用于学习未知的多约束 CMDP，并证明了该算法在没有误差抵消的情况下能够实现亚线性遗憾。

Feb, 2024

非平稳目标和约束的可证明高效原始 - 对偶强化学习在 CMDPs 中的应用

本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始 - 对偶强化学习，并提出了具有安全性和适应性的时间变化中安全的 RL 算法，同时建立了动态遗憾界和约束违规界。

Jan, 2022

具有约束条件的无限时间平均奖励马尔可夫决策过程学习

本研究提出了一种政策优化算法，用于处理成本约束下的无限时间跨度平均奖励马尔可夫决策过程中的后悔最小化问题，该算法在符合一定条件的 MDP 下具有较低的后悔度和约束违反率，并将其推广到弱通信 MDP 领域，为该领域提供了复杂度可行的算法。

Jan, 2022

面向有约束 MDPs 的无痛政策优化

研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题，提出了一种泛化的原始 - 对偶框架，用于评估算法表现，实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度，以及并非像其他方法一样需要超参数调整，并通过对合成和 Cartpole 环境的实验证明了其效力和稳健性。

Apr, 2022

有约束马尔可夫决策过程中拉格朗日方法的无撤销后悔界限

本文提出了一种基于 Lagrangian 方法的新型模型双重算法 OptAug-CMDP，针对标签化的有限路径 CMDP，证明了该算法在探索 CMDP 的 K 个周期内同时获得了目标和约束违规的期望性能敏感性，且无需进行错误取消。

Jun, 2023

无先验知识的非平稳强化学习：一种最优黑盒方法

本文提出一种黑盒化的方法，将某些强化学习算法在（近）平稳环境下的优化遗憾转化为在非平稳环境下的优化动态遗憾，并且不需要事先了解非平稳度。通过把不同的算法插入到这个黑盒中，我们给出一系列的例子，表明该方法不仅可以重构最近通过特殊算法实现的（上下文）多臂赌博机问题，而且还可以显著改进广义线性赌博机问题、周期性马尔科夫决策问题和无限时间马尔科夫决策问题的状态，特别是在大多数情况下，我们的算法可以达到最优动态遗憾。

Feb, 2021

具有全局收敛保证的内点约束强化学习

在无限时间、约束的马尔科夫决策过程中，通过零阶内点方法实现约束满足，以最大化预期累积奖励，确保策略在学习过程中的可行性，并具有样本复杂度 O (ε^(-6))

Dec, 2023

基于上置信度的对偶强化学习用于带对抗损失的 CMDP

本文关注于强化学习中保障安全的关键问题，提出一种新的基于置信上限的原始对偶算法，更好地解决了环境参数未知的情况下，限制条件作用下的 regret 分析。

Mar, 2020