具收敛保证的谱风险安全强化学习

May, 2024

具收敛保证的谱风险安全强化学习

Spectral-Risk Safe Reinforcement Learning with Convergence Guarantees

Dohyeong Kim, Taehyun Cho, Seungyub Han, Hojun Chung, Kyungjae Lee...

TL;DR我们提出了一种基于谱风险度量约束的增强学习算法，该算法利用了谱风险度量的对偶性，通过双层优化结构来实现收敛性和最优性，从而在表格设置中保证了最佳性能，并在连续控制任务中展现出了最好的性能。

Abstract

The field of risk-constrained reinforcement learning (RCRL) has been developed to effectively reduce the likelihood of worst-case scenarios by explicitly handling risk-measure-based constraints. However, the nonlinearity of risk measures makes it challenging to achieve →

risk-constrained reinforcement learning spectral risk measure bilevel optimization convergence continuous control tasks

发现论文，激发创造

CRPO：一种具有收敛保证的安全强化学习新方法

提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法，使用自然策略梯度方法，并以全局优化策略为目标，最终达到 1 / 根号 T 的收敛速率和错误边界。

Nov, 2020

奖励受限策略优化

提出了一种名为 “奖励约束策略优化（RCPO）” 的多时间尺度方法，该方法使用替代惩罚信号引导策略满足约束，并证明了该方法的收敛性和训练满足约束的策略的能力。

May, 2018

多功能安全强化学习的约束条件策略优化

我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架，通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块，在训练效率和零 - shot 适应能力方面超过基准，同时在安全性和任务性能方面保持一个高水平。

Oct, 2023

风险敏感强化学习是否得到适当解决？

本论文研究风险敏感强化学习，在已有 RSRL 方法存在优化偏差的理论下，提出新的 Trajectory Q-Learning 算法，能够有效地实现不同风险度量的风险敏感策略。

Jul, 2023

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

证明收敛性的风险敏感分布式强化学习的策略梯度方法

该研究论文介绍了一种用于风险敏感分布式强化学习的策略梯度方法，以及一种基于分布式策略评估和轨迹梯度估计的分类分布式策略梯度算法（CDPG）。通过在随机悬崖环境上进行实验，展示了在分布式强化学习中考虑风险敏感性的益处。

May, 2024

SCPO: 带安全评论家策略优化的安全强化学习

本研究介绍了一种新的安全强化学习算法（Safety Critic Policy Optimization，SCPO），通过引入安全评判机制，该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡，并在实证验证中证明了其有效性。

Nov, 2023

模型不匹配下的受限增强学习

在训练环境下，现有的关于约束强化学习（RL）的研究可能可以获得良好的策略。然而，在真实环境中部署时，由于训练与真实环境之间可能存在模型不匹配，它可能很容易违反最初满足的约束。为了解决上述挑战，我们将问题形式化为模型不确定性下的约束强化学习，即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化（RCPO）的算法，这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。

May, 2024

安全关键强化学习的概率约束

本文探讨了在概率受限制的强化学习中学习安全策略的问题，并提出了两种算法 ——Safe Policy Gradient-REINFORCE 和 SPG-Actor-Critic 以及 Safe Primal-Dual 算法来解决。通过实验，验证了这些方法的有效性和优越性。

Jun, 2023

基于强对偶性的分布鲁棒约束强化学习

本研究通过基于强对偶性的算法框架，在环境不确定性的一个类别中提出了第一个高效且可证明的解决方法，来解决分布鲁棒受限强化学习（DRC-RL）问题，该问题旨在最大化预期奖励，同时受制于环境分布变化和约束条件。

Jun, 2024