约束递归限制在受限制的强化学习中以防止不稳定性

Jan, 2022

约束递归限制在受限制的强化学习中以防止不稳定性

Recursive Constraints to Prevent Instability in Constrained Reinforcement Learning

Jaeyoung Lee, Sean Sedwards, Krzysztof Czarnecki

TL;DR考虑在马尔可夫决策过程中找到一种确定性策略，该策略统一（在所有状态下）最大化一种奖励，同时受到不同奖励的概率约束。本文提出了一种适当的约束强化学习算法来防止学习不稳定性，并使用递归约束描述了我们的问题的动机和适用性。

Abstract

We consider the challenge of finding a deterministic policy for a Markov decision process that uniformly (in all states) maximizes one reward subject to a probabilistic constraint over a different reward. Existin

constrained reinforcement learning deterministic policy markov decision process probabilistic constraint learning instability

发现论文，激发创造

弹韧性约束强化学习

我们提出了一种新的约束强化学习方法，通过在学习目标中引入放松成本来适应放松约束，以实现对策略和约束规格的联合搜索，然后通过两种具有非渐进收敛保证的鲁棒约束策略搜索算法来平衡约束满足和奖励最大化，最后通过计算实验来证明我们方法的优点和有效性。

Dec, 2023

通过反向价值函数的约束马尔可夫决策过程

本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题，该算法将成本累加约束转化为基于状态的约束，并确保代理在训练过程中满足这些约束，同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版 MuJoCo 环境中表现出色。

Aug, 2020

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于 MDPs 的风险受限规划算法，它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

强化学习用于带有动作约束的任务规定

本文运用离散事件系统监控控制理论的概念，提出一种方法用于在有限状态的马尔可夫决策过程中，学习最优控制策略，并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。

Jan, 2022

强化学习中的受限制探索与最优性保护

在强化学习问题中引入概念的受限探索与最优保持，在满足某些约束时保持学习的最优性，通过引入监督器控制行为，建立了一个反馈控制结构来建模无约束学习过程的动态，为知道确定性环境的强化学习问题建立了必要条件和充分条件。

Apr, 2023

具有随机停止时间的约束马尔可夫决策过程的安全增强学习

我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程，其中包含一个安全约束。通过线性规划算法，我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法，并演示了该算法的有效性。同时，我们通过定义状态空间的子集，称为代理集，实现了高效的探索。

Mar, 2024

约束上置信强化学习

本文提出了一种名为 C-UCRL 的算法，扩展了上置信度强化学习的范围，解决了在奖励函数、约束和转移核函数均未知的情况下探索未知、潜在不安全的环境问题，并在学习的过程中满足奖励约束条件，具有亚线性后悔度。

Jan, 2020

马尔科夫决策过程的安全约束强化学习

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

风险敏感强化学习应用于约束条件控制

本文研究带错误状态的马尔可夫决策过程，并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务，实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。

Sep, 2011

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020