基于极值理论的大灾风险感知强化学习

Jun, 2024

基于极值理论的大灾风险感知强化学习

Catastrophic-risk-aware reinforcement learning with extreme-value-theory-based policy gradients

Parisa Davar, Frédéric Godin, Jose Garrido

TL;DR在顺序决策过程中，解决减轻灾难性风险的问题，通过基于极值理论的尾风险近似导出的一种政策梯度算法 (POTPG)，在金融风险管理中的动态对冲金融期权中得到了良好的实验表现。

Abstract

This paper tackles the problem of mitigating catastrophic risk (which is risk with very low frequency but very high severity) in the context of a sequential decision making process. This problem is particularly challenging due to the scarcity of observations in the far tail of the dist

catastrophic risk sequential decision making policy gradient algorithm extreme value theory financial risk management

发现论文，激发创造

强化学习中的极端风险缓解基于极值理论

通过使用极值理论参数化分布的方法提高强化学习中的风险敏感能力，以应对罕见的危险事件并优化状态动作值函数估计。实验结果表明，该方法在各种不同风险场景的测试中优于其他风险规避的强化学习算法。

Aug, 2023

最坏情况策略梯度

该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法，应用于驾驶模拟中，实现了在保证安全的前提下尽量提高任务完成效率，并且相比于其他深度强化学习方法，该方法更具有泛化性。

Nov, 2019

保守乐观：快速学习 CVaR 策略

以 Markov 决策过程为基础，采用面对不确定性的乐观主义原则，使用一种乐观主义的分布 Bellman 算子，将回报分布的概率质量从下尾部移动到上尾部，从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。

Nov, 2019

通过限制条件风险价值实现安全的强化学习

本文介绍了一种新的增强学习算法 - CVaR-Proximal-Policy-Optimization (CPPO)，该算法利用条件风险价值 (CVaR) 进行评估，同时保持其 CVaR 在给定阈值以下，实现了在连续控制任务中对观测和转移扰动更强的鲁棒性。

Jun, 2022

基于方差相关风险标准的策略梯度

本文提出了一种新的公式来计算环节任务成本的方差，并使用该公式提出了基于局部策略梯度算法的风险管理框架，进一步研究了涉及成本期望和成本方差的准则，最终在投资组合计划问题中应用。

Jun, 2012

通过知识危险寻优策略优化实现高效探索

提出了一种基于期望风险的探索算法，通过训练神经网络和优化策略使智能体具有探索未知状态的能力，在深度强化学习中表现出良好的性能。

Feb, 2023

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于 MDPs 的风险受限规划算法，它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

通过条件风险价值优化学习健壮的选项

本文提出了一种基于条件风险价值方法的学习选项的方法，旨在处理具有不确定性的模型参数，以实现在平均和最坏情况下都能良好运作的选项，通过实验评估表明该方法在多关节机器人控制任务中获得了较好的表现。

May, 2019

风险敏感马尔可夫决策过程与普遍效用函数下的学习

在实践中，决策者经常面临着不同的风险偏好和不确定性的情况，传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法，并设计了可实现的近似算法来求解该问题。

Nov, 2023