风险厌恶策略梯度的一种替代方案:基尼偏差
本文提出了一种新的公式来计算环节任务成本的方差,并使用该公式提出了基于局部策略梯度算法的风险管理框架,进一步研究了涉及成本期望和成本方差的准则,最终在投资组合计划问题中应用。
Jun, 2012
研究采用演员-评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题,并通过协同扰动优化算法及其他方法解决难以优化的问题。 最后,论文在交通信号控制应用中展示了算法的实用性。
Mar, 2014
论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度, 通过对动作的积分来估算梯度, 证明了其可以降低梯度估算的方差, 对于高斯探索,通过设置动作的海森矩阵的指数作为协方差比标准探索更优,在四个MuJoCo 域中明显优于使用奥恩斯坦-乌伦贝克启发式的确定性策略梯度.
Jun, 2017
本文提出了一种新的风险评估指标——奖励波动率,并建立了一个基于改进后的奖励波动率指标的策略梯度定理。通过在两个模拟的金融环境下进行测试,证明了该方法的有效性。
Dec, 2019
本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法,采用任意策略评估方法和风险中立控制方法,通过对一个新颖的扩展 MDP 直接进行处理,减少风险中立控制与风险规避控制之间的差距,并介绍了一种风险规避 TD3 方法作为 MVPI 的示例。该方法在 Mujoco 机器人仿真任务中优于传统 TD3 方法和其他风险规避控制方法。
Apr, 2020
本文针对这些技术因满足不了多步骤MARKOV决策过程的情况下的算法运转动态,证明了在赌博机和强化学习问题中,曲率和噪声不能充分解释这些问题,若算法收敛进行的选择不当,有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现,并将其扩展到多状态MDPs 。
Aug, 2020
基于模型的强化学习中,我们考虑量化预期累积奖励的不确定性问题。我们提出了一个新的不确定性 Bellman 方程,其收敛到真实后验价值方差并在表格型探索问题中降低遗憾。我们鉴定了超越表格问题的应用挑战,并提出了相应的近似方法。基于这个近似,我们引入了一种通用的策略优化算法,Q-不确定性软 Actor-Critic(QU-SAC),可在风险追求或风险规避的策略优化中进行最小程度改动。在线与离线强化学习的实验结果表明相较于其他不确定性估计方法,性能得到了提升。
Dec, 2023