通过条件风险价值优化学习健壮的选项

May, 2019

通过条件风险价值优化学习健壮的选项

Learning Robust Options by Conditional Value at Risk Optimization

Takuya Hiraoka, Takahisa Imagawa, Tatsuya Mori, Takashi Onishi, Yoshimasa Tsuruoka

TL;DR本文提出了一种基于条件风险价值方法的学习选项的方法，旨在处理具有不确定性的模型参数，以实现在平均和最坏情况下都能良好运作的选项，通过实验评估表明该方法在多关节机器人控制任务中获得了较好的表现。

Abstract

options are generally learned by using an inaccurate environment model (or simulator), which contains uncertain model parameters. While there are several methods to learn →

options uncertain model parameters conditional value at risk robust markov decision processes multi-joint robot control

发现论文，激发创造

保守乐观：快速学习 CVaR 策略

以 Markov 决策过程为基础，采用面对不确定性的乐观主义原则，使用一种乐观主义的分布 Bellman 算子，将回报分布的概率质量从下尾部移动到上尾部，从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。

Nov, 2019

条件风险下的统计学习

研究一种基于条件风险价值（CVaR）的风险规避统计学习框架，提出了基于随机梯度下降的算法。对于凸和 Lipschitz 的损失函数，该算法收敛到最优 CVaR，而对于非凸和平滑的损失函数，该算法在 CVaR 上的泛化界表现良好。通过在各种机器学习任务上进行数值实验，证明了该算法有效地将 CVaR 最小化。

Feb, 2020

风险敏感和鲁棒决策：CVaR 优化方法

本文提出了一种在 MDP 框架下考虑风险和建模误差的决策方法，采用风险敏感条件价值风险 (CVaR) 目标，同时探讨了 CVaR MDP 框架在风险敏感和鲁棒决策制定中的应用，其理论分析和数值实验结果均证明了该方法的实用性和有效性。

Jun, 2015

在 MDPs 中进行 CVaR 优化的算法

本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题，并提出了策略梯度和演员评论算法，以在局部风险敏感的最优策略中更新策略参数，解决了一个最优停止问题。

Jun, 2014

非平稳分布下的风险规避学习

本文研究在线优化中的非稳态环境，以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略，使用条件风险价值 (CVaR) 作为风险度量，并使用零阶优化方法来估计 CVaR 梯度。理论结果表明，我们设计的学习算法在凸和强凸函数上能够以高概率实现子线性动态遗憾。同时，数值实验在停车场动态定价方面展示了所设计算法的有效性。

Apr, 2024

随机风险厌恶学习的自适应采样

在机器学习应用中，我们提出了一种风险规避的训练模型的方法，它通过优化在最难的样本上的表现来提高模型的稳定性和可预测性，关键是利用分布式随机优化算法和结构化行列式点过程进行大规模的学习任务。

Oct, 2019

通过采样优化 CVaR

基于条件期望的公式，我们提出了一种新的基于采样的 CVaR 梯度估计器，类似于似然比方法。我们分析了估计器的偏差，并证明了相应随机梯度下降算法的收敛性，使 CVaR 优化可以在新的领域应用。例如，我们考虑一个强化学习应用，为 Tetris 游戏学习风险敏感的控制器。

Apr, 2014

分布鲁棒优化的大规模方法

该文主要研究了基于 CVaR 和 chi-squared 分布的鲁棒优化问题，并提出了一种新的算法以及相应的优化方案。研究结果表明，该算法不仅适用于大规模应用，而且在实验中的效率比全样本方法高 9~36 倍。

Oct, 2020

通过限制条件风险价值实现安全的强化学习

本文介绍了一种新的增强学习算法 - CVaR-Proximal-Policy-Optimization (CPPO)，该算法利用条件风险价值 (CVaR) 进行评估，同时保持其 CVaR 在给定阈值以下，实现了在连续控制任务中对观测和转移扰动更强的鲁棒性。

Jun, 2022

具有条件风险价值的鲁棒风险敏感强化学习

使用固定过渡概率的标准马尔科夫决策过程（MDPs）的替代方案，鲁棒马尔科夫决策过程（RMDPs）在不确定性集合中优化最坏情况下的结果。本文研究了在 RMDP 下基于 CVaR 的风险敏感强化学习的鲁棒性，分析了预先设定的不确定性集合和状态动作相关的不确定性集合，提出了风险度量 NCVaR 和相应的优化方法，并通过仿真实验验证了该方法的有效性。

May, 2024