通过采样优化 CVaR

AAAIApr, 2014

Optimizing the CVaR via Sampling

Aviv Tamar, Yonatan Glassner, Shie Mannor

TL;DR基于条件期望的公式，我们提出了一种新的基于采样的 CVaR 梯度估计器，类似于似然比方法。我们分析了估计器的偏差，并证明了相应随机梯度下降算法的收敛性，使 CVaR 优化可以在新的领域应用。例如，我们考虑一个强化学习应用，为 Tetris 游戏学习风险敏感的控制器。

Abstract

Conditional Value at Risk (cvar) is a prominent risk measure that is being used extensively in various domains. We develop a new formula for the gradient of the →

cvar gradient estimator stochastic gradient descent reinforcement learning

发现论文，激发创造

条件风险下的统计学习

研究一种基于条件风险价值（CVaR）的风险规避统计学习框架，提出了基于随机梯度下降的算法。对于凸和 Lipschitz 的损失函数，该算法收敛到最优 CVaR，而对于非凸和平滑的损失函数，该算法在 CVaR 上的泛化界表现良好。通过在各种机器学习任务上进行数值实验，证明了该算法有效地将 CVaR 最小化。

Feb, 2020

在 MDPs 中进行 CVaR 优化的算法

本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题，并提出了策略梯度和演员评论算法，以在局部风险敏感的最优策略中更新策略参数，解决了一个最优停止问题。

Jun, 2014

保守乐观：快速学习 CVaR 策略

以 Markov 决策过程为基础，采用面对不确定性的乐观主义原则，使用一种乐观主义的分布 Bellman 算子，将回报分布的概率质量从下尾部移动到上尾部，从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。

Nov, 2019

随机风险厌恶学习的自适应采样

在机器学习应用中，我们提出了一种风险规避的训练模型的方法，它通过优化在最难的样本上的表现来提高模型的稳定性和可预测性，关键是利用分布式随机优化算法和结构化行列式点过程进行大规模的学习任务。

Oct, 2019

一种基于模型的方法，用于最小化 CVaR 及更多

我们提出了一种随机近端线性方法的变体，用于最小化条件风险价值（CVaR）目标，该方法在机器学习中的风险测量中具有广泛应用。我们将一般的收敛定理应用于该模型，并通过实验证明，它比随机次梯度方法更好地利用了目标的结构，并且适应了损失函数的缩放，这使得调整更容易。

May, 2023

CVaR 约束 MDPs 的政策梯度

本文研究了风险受限随机最短路径问题中的条件风险价值，提出了两种基于随机逼近、小批量、策略梯度和重要性采样的本地风险最优策略算法，并将条件风险价值估计过程纳入算法中进行梯度和方差的估计和降低。

May, 2014

长期风险价值 (CVaR) 标准下的风险敏感马尔可夫决策过程

本文研究了使用基于敏感性的优化方法来解决具有长期 CVaR 标准的无限期离散时间 MDP 的最优策略问题，利用伪 CVaR 度量导出了 CVaR 的差分公式并推导出了 CVaR 的局部最优条件和全局最优条件的必要性，提出了一种策略迭代算法并进行数值实验以证明主要结论。

Oct, 2022

经验条件风险价值的集中度界限：无界情形

本文提出了一种基于样本计算条件风险价值 (CVaR) 的方法，通过统计方法得到了一个新的置信边界来估计 CVaR。该方法和得到的置信边界是基于量化反应的风险价值 (VaR) 估计的经验。

Aug, 2018

CVaR 估计的浓度界：轻尾分布与重尾分布的情形

该研究使用经验分布和截断法估算 CVaR，得出其轻尾和重尾分布的集中界，并将其应用于多臂老虎机问题中，提出了基于 CVaR 的连续拒绝算法，并利用 CVaR 集中结果导出了算法错误识别概率的上界。

Jan, 2019

非平稳分布下的风险规避学习

本文研究在线优化中的非稳态环境，以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略，使用条件风险价值 (CVaR) 作为风险度量，并使用零阶优化方法来估计 CVaR 梯度。理论结果表明，我们设计的学习算法在凸和强凸函数上能够以高概率实现子线性动态遗憾。同时，数值实验在停车场动态定价方面展示了所设计算法的有效性。

Apr, 2024