零或有界约束违规的约束马尔可夫决策过程策略学习

MMJun, 2021

Learning Policies with Zero or Bounded Constraint Violation for Constrained MDPs

Tao Liu, Ruida Zhou, Dileep Kalathil, P. R. Kumar, Chao Tian

TL;DR本文探讨了在强化学习过程中如何确保系统安全，并提出了一种基于 Markov 决策过程的算法，通过乐观悲观原则实现了安全探索和奖励控制，使系统在保证零约束违规的前提下，获得可观的奖励表现。

Abstract

We address the issue of safety in reinforcement learning. We pose the problem in an episodic framework of a constrained markov decision process

发现论文，激发创造

该研究提出了一种保守随机原始 - 对偶算法 (CSPDA)，用于解决基于约束马尔可夫决策过程 (CMDP) 的强化学习问题，该算法能够在零约束违规的情况下实现 ε- 最优累积奖励，并提供比现有算法更有效率的复杂度。

Sep, 2021

研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题，使用一种约束的 Markov 决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

开发了第一个近似最优的安全强化学习算法，适用于具有不安全状态和行动及瞬间硬性约束和线性混合模型的情况。

Feb, 2023

本研究提出了一种政策优化算法，用于处理成本约束下的无限时间跨度平均奖励马尔可夫决策过程中的后悔最小化问题，该算法在符合一定条件的 MDP 下具有较低的后悔度和约束违反率，并将其推广到弱通信 MDP 领域，为该领域提供了复杂度可行的算法。

Jan, 2022

本研究提出了一种基于后验抽样的强化学习算法 Safe PSRL，它能够在不需要安全策略的前提下有效地平衡探索和开发，并通过采用悲观主义的思想仅受到有界的约束违规，从而在理论和实践上得到了良好的表现。

Jan, 2023

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020

本文提出一种使用基于占用测度的拉格朗日优化方法来解决约束马尔可夫博弈的在线安全强化学习算法，经更新的 minimax 决策原始变量和双重变量，达到亚线性后悔率和约束违规率，实现对马尔可夫博弈的高效学习。

May, 2023

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

本文提出了一种基于正则化原始对偶方案的模型为基础的算法，用于学习未知的多约束 CMDP，并证明了该算法在没有误差抵消的情况下能够实现亚线性遗憾。

Feb, 2024