保守乐观：快速学习 CVaR 策略

Nov, 2019

Being Optimistic to Be Conservative: Quickly Learning a CVaR Policy

Ramtin Keramati, Christoph Dann, Alex Tamkin, Emma Brunskill

TL;DR以 Markov 决策过程为基础，采用面对不确定性的乐观主义原则，使用一种乐观主义的分布 Bellman 算子，将回报分布的概率质量从下尾部移动到上尾部，从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。

Abstract

While maximizing expected return is the goal in most reinforcement learning approaches, risk-sensitive objectives such as conditional value at risk (CVaR) are more suitable for many high-stakes applications. Howe

reinforcement learning conditional value at risk optimism in the face of uncertainty markov decision processes sample-efficient learning

发现论文，激发创造

通过采样优化 CVaR

基于条件期望的公式，我们提出了一种新的基于采样的 CVaR 梯度估计器，类似于似然比方法。我们分析了估计器的偏差，并证明了相应随机梯度下降算法的收敛性，使 CVaR 优化可以在新的领域应用。例如，我们考虑一个强化学习应用，为 Tetris 游戏学习风险敏感的控制器。

Apr, 2014

在 MDPs 中进行 CVaR 优化的算法

本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题，并提出了策略梯度和演员评论算法，以在局部风险敏感的最优策略中更新策略参数，解决了一个最优停止问题。

Jun, 2014

通过条件风险价值优化学习健壮的选项

本文提出了一种基于条件风险价值方法的学习选项的方法，旨在处理具有不确定性的模型参数，以实现在平均和最坏情况下都能良好运作的选项，通过实验评估表明该方法在多关节机器人控制任务中获得了较好的表现。

May, 2019

低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习

我们研究了风险敏感的强化学习 (RL)，其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL，功能逼近必须得到部署。在非线性功能逼近中，我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解，但与线性模型不同，低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法，以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR，其中 H 是每个 episode 的长度，A 是动作空间的容量，d 是表示的维度。在计算方面，我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期，并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知，这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。

Nov, 2023

长期风险价值 (CVaR) 标准下的风险敏感马尔可夫决策过程

本文研究了使用基于敏感性的优化方法来解决具有长期 CVaR 标准的无限期离散时间 MDP 的最优策略问题，利用伪 CVaR 度量导出了 CVaR 的差分公式并推导出了 CVaR 的局部最优条件和全局最优条件的必要性，提出了一种策略迭代算法并进行数值实验以证明主要结论。

Oct, 2022

风险敏感和鲁棒决策：CVaR 优化方法

本文提出了一种在 MDP 框架下考虑风险和建模误差的决策方法，采用风险敏感条件价值风险 (CVaR) 目标，同时探讨了 CVaR MDP 框架在风险敏感和鲁棒决策制定中的应用，其理论分析和数值实验结果均证明了该方法的实用性和有效性。

Jun, 2015

条件风险下的统计学习

研究一种基于条件风险价值（CVaR）的风险规避统计学习框架，提出了基于随机梯度下降的算法。对于凸和 Lipschitz 的损失函数，该算法收敛到最优 CVaR，而对于非凸和平滑的损失函数，该算法在 CVaR 上的泛化界表现良好。通过在各种机器学习任务上进行数值实验，证明了该算法有效地将 CVaR 最小化。

Feb, 2020

可证明高效的迭代 CVaR 强化学习与函数逼近

使用线性和一般函数逼近，对风险敏感的强化学习（RL）进行了研究，提出了名为 ICVaR-RL 的新的风险敏感 RL 公式，为每个决策步骤提供了保证安全性的原则方法，并提出了 ICVaR-L 和 ICVaR-G 两个高效算法，以及对 CVaR 算子的高效逼近，适应 CVaR 的特征的新的岭回归，以及精炼的椭球潜力引理。

Jul, 2023

CVaR 约束 MDPs 的政策梯度

本文研究了风险受限随机最短路径问题中的条件风险价值，提出了两种基于随机逼近、小批量、策略梯度和重要性采样的本地风险最优策略算法，并将条件风险价值估计过程纳入算法中进行梯度和方差的估计和降低。

May, 2014

通过限制条件风险价值实现安全的强化学习

本文介绍了一种新的增强学习算法 - CVaR-Proximal-Policy-Optimization (CPPO)，该算法利用条件风险价值 (CVaR) 进行评估，同时保持其 CVaR 在给定阈值以下，实现了在连续控制任务中对观测和转移扰动更强的鲁棒性。

Jun, 2022