通过限制条件风险价值实现安全的强化学习

Jun, 2022

通过限制条件风险价值实现安全的强化学习

Towards Safe Reinforcement Learning via Constraining Conditional Value-at-Risk

Chengyang Ying, Xinning Zhou, Hang Su, Dong Yan, Ning Chen...

TL;DR本文介绍了一种新的增强学习算法 - CVaR-Proximal-Policy-Optimization (CPPO)，该算法利用条件风险价值 (CVaR) 进行评估，同时保持其 CVaR 在给定阈值以下，实现了在连续控制任务中对观测和转移扰动更强的鲁棒性。

Abstract

Though deep reinforcement learning (DRL) has obtained substantial success, it may encounter catastrophic failures due to the intrinsic uncertainty of both transition and observation. Most of the existing methods for safe reinforcement learning can only handle transition disturbance or

deep reinforcement learning safe reinforcement learning value function range conditional value-at-risk continuous control tasks

发现论文，激发创造

高效的离线安全强化学习：使用信任区域条件风险

本论文提出了一种基于风险约束的安全强化学习方法，并通过引入适应性信任区约束以减少分布偏移的影响，解决了在复杂环境中实现优异性能并快速满足安全约束的问题。

Dec, 2023

多功能安全强化学习的约束条件策略优化

我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架，通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块，在训练效率和零 - shot 适应能力方面超过基准，同时在安全性和任务性能方面保持一个高水平。

Oct, 2023

保守乐观：快速学习 CVaR 策略

以 Markov 决策过程为基础，采用面对不确定性的乐观主义原则，使用一种乐观主义的分布 Bellman 算子，将回报分布的概率质量从下尾部移动到上尾部，从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。

Nov, 2019

TRC：用于安全强化学习的信任区域条件风险价值

提出了一种以条件风险为约束的信赖区域安全强化学习方法（TRC），通过近似上界和使用次问题训练策略，实现在安全约束下达到更优性能的有效导航任务。

Dec, 2023

具有条件风险价值的鲁棒风险敏感强化学习

使用固定过渡概率的标准马尔科夫决策过程（MDPs）的替代方案，鲁棒马尔科夫决策过程（RMDPs）在不确定性集合中优化最坏情况下的结果。本文研究了在 RMDP 下基于 CVaR 的风险敏感强化学习的鲁棒性，分析了预先设定的不确定性集合和状态动作相关的不确定性集合，提出了风险度量 NCVaR 和相应的优化方法，并通过仿真实验验证了该方法的有效性。

May, 2024

风险厌恶 POMDP 的简化与绩效保证

在部分可观察域中，面临不确定性的风险规避决策是人工智能领域的一个基本问题，对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程（POMDPs）建模并采用回报的条件风险价值（CVaR）作为值函数。这项工作开发了一个简化框架，以加快值函数的评估速度，并提供性能保证。我们考虑了一种计算代价更低的信念 - MDP 转移模型作为简化方法，该模型可以对应于更廉价的观察或转移模型。我们的贡献包括一般的 CVaR 界限，通过假设两个累积分布之间的界限，可以使用一个随机变量 Y 来限制随机变量 X 的 CVaR。然后，我们推导出 POMDP 设置下 CVaR 值函数的界限，并展示了如何使用计算代价更低的信念 - MDP 转移模型来限制值函数，而无需实时访问计算代价高昂的模型。接着，我们提供了对估计边界的理论性能保证。我们的结果适用于对信念 - MDP 转移模型的一般简化，并可以同时简化观察和状态转移模型。

Jun, 2024

低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

我们研究了风险敏感的强化学习 (RL)，其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL，功能逼近必须得到部署。在非线性功能逼近中，我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解，但与线性模型不同，低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法，以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR，其中 H 是每个 episode 的长度，A 是动作空间的容量，d 是表示的维度。在计算方面，我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期，并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知，这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。

Nov, 2023

通过条件风险价值优化学习健壮的选项

本文提出了一种基于条件风险价值方法的学习选项的方法，旨在处理具有不确定性的模型参数，以实现在平均和最坏情况下都能良好运作的选项，通过实验评估表明该方法在多关节机器人控制任务中获得了较好的表现。

May, 2019

条件风险下的统计学习

研究一种基于条件风险价值（CVaR）的风险规避统计学习框架，提出了基于随机梯度下降的算法。对于凸和 Lipschitz 的损失函数，该算法收敛到最优 CVaR，而对于非凸和平滑的损失函数，该算法在 CVaR 上的泛化界表现良好。通过在各种机器学习任务上进行数值实验，证明了该算法有效地将 CVaR 最小化。

Feb, 2020

风险感知的分布式多智能体强化学习

研究了在未知环境下的决策问题，使用分布式多智能体强化学习和条件风险价值的方法进行决策，并通过模拟评估验证了该方法。

Apr, 2023