风险厌恶强化学习中的均值半方差策略优化
本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法,采用任意策略评估方法和风险中立控制方法,通过对一个新颖的扩展 MDP 直接进行处理,减少风险中立控制与风险规避控制之间的差距,并介绍了一种风险规避 TD3 方法作为 MVPI 的示例。该方法在 Mujoco 机器人仿真任务中优于传统 TD3 方法和其他风险规避控制方法。
Apr, 2020
本文提出了一种新的风险评估指标 —— 奖励波动率,并建立了一个基于改进后的奖励波动率指标的策略梯度定理。通过在两个模拟的金融环境下进行测试,证明了该方法的有效性。
Dec, 2019
用假均值将混合风险下的 MDP 转化为标准 MDP,并提出一种基于二级优化结构的统一算法框架,该框架还允许收敛性分析。通过数值实验,验证了该算法的有效性。
Jan, 2022
本文研究了含有累积回报的均值和方差的性能度量下的有限时域马尔科夫决策过程 (Markov decision processes),并证明了对于某些情况下,计算在方差约束下使均值回报最大的策略的复杂度是 NP 难问题,并提供了伪多项式精确和逼近算法。
Apr, 2011
本文提出了一种新的公式来计算环节任务成本的方差,并使用该公式提出了基于局部策略梯度算法的风险管理框架,进一步研究了涉及成本期望和成本方差的准则,最终在投资组合计划问题中应用。
Jun, 2012
本文基于强化学习研究了一个基于离散时间的均值方差模型,与其在连续时间中的对应物相比,离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本,我们得出了最优投资策略,其密度函数也是高斯型的。另外,我们设计了相应的强化学习算法。模拟实验和实证分析表明,我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。
Dec, 2023
本文研究在线优化中的非稳态环境,以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略,使用条件风险价值 (CVaR) 作为风险度量,并使用零阶优化方法来估计 CVaR 梯度。理论结果表明,我们设计的学习算法在凸和强凸函数上能够以高概率实现子线性动态遗憾。同时,数值实验在停车场动态定价方面展示了所设计算法的有效性。
Apr, 2024
研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题,并通过协同扰动优化算法及其他方法解决难以优化的问题。 最后,论文在交通信号控制应用中展示了算法的实用性。
Mar, 2014
本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题,并提出了策略梯度和演员评论算法,以在局部风险敏感的最优策略中更新策略参数,解决了一个最优停止问题。
Jun, 2014