风险厌恶强化学习中的均值半方差策略优化

Jun, 2022

风险厌恶强化学习中的均值半方差策略优化

Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning

Xiaoteng Ma, Shuai Ma, Li Xia, Qianchuan Zhao

TL;DR本文旨在优化均值 - semivariance（MSV）目标，提出了两种基于策略梯度理论和信任域方法的算法，通过在 MuJoCo 上的实验验证其有效性。

Abstract

Keeping risk under control is often more crucial than maximizing expected rewards in real-world decision-making situations, such as finance, robotics, autonomous driving, etc. The most natural choice of risk measures is variance, which penalizes the upside volatility as much as the downside part. Instead, the (downside) →

risk control semivariance reinforcement learning policy gradient mujoco

发现论文，激发创造

风险规避强化学习的均值方差策略迭代

本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法，采用任意策略评估方法和风险中立控制方法，通过对一个新颖的扩展 MDP 直接进行处理，减少风险中立控制与风险规避控制之间的差距，并介绍了一种风险规避 TD3 方法作为 MVPI 的示例。该方法在 Mujoco 机器人仿真任务中优于传统 TD3 方法和其他风险规避控制方法。

Apr, 2020

风险厌恶信任区域优化用于奖励波动率降低

本文提出了一种新的风险评估指标 —— 奖励波动率，并建立了一个基于改进后的奖励波动率指标的策略梯度定理。通过在两个模拟的金融环境下进行测试，证明了该方法的有效性。

Dec, 2019

折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架

用假均值将混合风险下的 MDP 转化为标准 MDP，并提出一种基于二级优化结构的统一算法框架，该框架还允许收敛性分析。通过数值实验，验证了该算法的有效性。

Jan, 2022

马尔可夫决策过程中的均值 - 方差优化

本文研究了含有累积回报的均值和方差的性能度量下的有限时域马尔科夫决策过程 (Markov decision processes)，并证明了对于某些情况下，计算在方差约束下使均值回报最大的策略的复杂度是 NP 难问题，并提供了伪多项式精确和逼近算法。

Apr, 2011

基于方差相关风险标准的策略梯度

本文提出了一种新的公式来计算环节任务成本的方差，并使用该公式提出了基于局部策略梯度算法的风险管理框架，进一步研究了涉及成本期望和成本方差的准则，最终在投资组合计划问题中应用。

Jun, 2012

方差惩罚的在线与离线行为者 - 评论家算法

本研究提出了基于策略梯度方法的强化学习算法，通过对回报的方差进行惩罚，保证了算法的效果可靠，并在标准测试环境下展示了相应结果。

Feb, 2021

基于强化学习的离散时间均值方差策略

本文基于强化学习研究了一个基于离散时间的均值方差模型，与其在连续时间中的对应物相比，离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本，我们得出了最优投资策略，其密度函数也是高斯型的。另外，我们设计了相应的强化学习算法。模拟实验和实证分析表明，我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。

Dec, 2023

非平稳分布下的风险规避学习

本文研究在线优化中的非稳态环境，以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略，使用条件风险价值 (CVaR) 作为风险度量，并使用零阶优化方法来估计 CVaR 梯度。理论结果表明，我们设计的学习算法在凸和强凸函数上能够以高概率实现子线性动态遗憾。同时，数值实验在停车场动态定价方面展示了所设计算法的有效性。

Apr, 2024

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

在 MDPs 中进行 CVaR 优化的算法

本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题，并提出了策略梯度和演员评论算法，以在局部风险敏感的最优策略中更新策略参数，解决了一个最优停止问题。

Jun, 2014