最坏情况策略梯度

Nov, 2019

Worst Cases Policy Gradients

Yichuan Charlie Tang, Jian Zhang, Ruslan Salakhutdinov

TL;DR该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法，应用于驾驶模拟中，实现了在保证安全的前提下尽量提高任务完成效率，并且相比于其他深度强化学习方法，该方法更具有泛化性。

Abstract

Recent advances in deep reinforcement learning have demonstrated the capability of learning complex control policies from many types of environments. When learning policies for safety-critical applications, it is essential to be sensitive to risks and avoid catastrophic events. Towards

deep reinforcement learning actor-critic framework conditional value-at-risk driving simulations risk-averse policies

发现论文，激发创造

软 - 鲁棒的演员 - 评论家策略梯度算法

本文提出了一种基于 Soft-Robust Actor-Critic 算法的 Robust Reinforcement Learning 方法，能够学习针对不确定性模型的最优策略且避免过于保守，实验证明其收敛性和高效性。

Mar, 2018

保守乐观：快速学习 CVaR 策略

以 Markov 决策过程为基础，采用面对不确定性的乐观主义原则，使用一种乐观主义的分布 Bellman 算子，将回报分布的概率质量从下尾部移动到上尾部，从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。

Nov, 2019

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

注重最坏情况鲁棒性的 Max-Min 离线策略演员 - 评论家算法

探讨了强化学习中的模拟环境和真实环境之间存在的不匹配问题，设计了一种基于最小 - 最大优化的离线演员 - 评论家算法（M2TD3）来优化不确定性参数集上的最坏情况表现，实现了该方法在 MuJoco 环境中的效果优于多个基准方法。

Nov, 2022

凸优化下风险敏感型无行动者策略

本研究提出了一种基于条件风险的风险敏感型目标函数，并使用输入凸神经网络对其建模，以实现与动作的凸性和简单梯度跟踪方法相关的全局最优动作的识别，该方法在维护有效的风险控制方面表现出了显著的效果。

Jun, 2023

RACER：基于认知风险敏感的强化学习在少发生事故的情况下实现快速驾驶

通过将风险敏感控制与自适应动作空间课程相结合，我们提出了一种强化学习框架，能够既学习高性能的策略，又避免过多的失败，在真实世界的越野驾驶任务中具有较少的安全违例，并在具有相似挑战的驾驶和非驾驶仿真环境中导致更高性能的策略。

May, 2024

面向分布式鲁棒安全强化学习的风险规避模型不确定性

我们提出了一个采用深度强化学习的框架，通过相干畸变风险度量考虑模型不确定性的风险规避观点，并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题，并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制任务上产生了稳健安全的表现。

Jan, 2023

谨防不确定性：风险意识和积极探索模型的基于强化学习

我们引入了一种简单而有效的方法来管理基于模型的强化学习中的风险，该方法使用了概率安全约束、在确知不确定性面前的乐观和在事件性不确定性面前的悲观以及一组随机神经网络的平衡。各种实验证明，不确定性的分离对于在不确定和安全关键的控制环境中使用数据驱动的 MPC 方法表现良好是至关重要的。

Sep, 2023

模型增强的 Actor-Critic 算法：透过路径反向传播

本文介绍了一种新的基于模型的强化学习算法，通过利用学习到的模型和策略经过多个时间步长的路径导数来构建策略优化算法，同时通过学习一个演员评论家，使用终端值函数避免了通过多个时间步长的不稳定性。结果显示，该方法比现有的最先进的基于模型的算法在样本效率上更为一致，并且与基于模型的算法达到了基于模型的算法无法达到的渐近性能，而且具有可扩展性。

May, 2020

通过限制条件风险价值实现安全的强化学习

本文介绍了一种新的增强学习算法 - CVaR-Proximal-Policy-Optimization (CPPO)，该算法利用条件风险价值 (CVaR) 进行评估，同时保持其 CVaR 在给定阈值以下，实现了在连续控制任务中对观测和转移扰动更强的鲁棒性。

Jun, 2022