风险厌恶策略梯度的一种替代方案：基尼偏差

Jul, 2023

风险厌恶策略梯度的一种替代方案：基尼偏差

An Alternative to Variance: Gini Deviation for Risk-averse Policy Gradient

Yudong Luo, Guiliang Liu, Pascal Poupart, Yangchen Pan

TL;DR采用Gini偏差作为替代风险度量的政策梯度算法，可以缓解方差风险度量的局限性，并在风险规避领域取得高回报、低风险的可靠策略。

Abstract

Restricting the variance of a policy's return is a popular choice in risk-averse Reinforcement Learning (RL) due to its clear mathematical definition and easy interpretability. Traditional methods directly restrict the total return variance. Recent methods restrict the per-step reward variance as a proxy. We thoroughly examine the limitations of these

发现论文，激发创造

基于方差相关风险标准的策略梯度

本文提出了一种新的公式来计算环节任务成本的方差，并使用该公式提出了基于局部策略梯度算法的风险管理框架，进一步研究了涉及成本期望和成本方差的准则，最终在投资组合计划问题中应用。

Jun, 2012

基于梯度的强化学习的最优奖励基准线

研究了基于策略梯度的强化学习算法中关于梯度估计差异的问题，并提出将一个奖励基线纳入到学习系统中来降低差异，进而提高算法性能的方法。

Jan, 2013

用于折扣和平均奖励 MDP 的方差约束Actor-Critic算法

研究采用演员-评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

预期策略梯度

论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度, 通过对动作的积分来估算梯度, 证明了其可以降低梯度估算的方差, 对于高斯探索，通过设置动作的海森矩阵的指数作为协方差比标准探索更优，在四个MuJoCo 域中明显优于使用奥恩斯坦-乌伦贝克启发式的确定性策略梯度.

Jun, 2017

减少方差的深度强化学习奖励估计

该研究提出使用奖励估算方法来应对机器人学习中复杂任务中可能出现的损坏或随机奖励信号，这种方法能够提高算法的稳定性和性能表现，并且应用范围广泛。

May, 2018

风险厌恶信任区域优化用于奖励波动率降低

本文提出了一种新的风险评估指标——奖励波动率，并建立了一个基于改进后的奖励波动率指标的策略梯度定理。通过在两个模拟的金融环境下进行测试，证明了该方法的有效性。

Dec, 2019

风险规避强化学习的均值方差策略迭代

本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法，采用任意策略评估方法和风险中立控制方法，通过对一个新颖的扩展 MDP 直接进行处理，减少风险中立控制与风险规避控制之间的差距，并介绍了一种风险规避 TD3 方法作为 MVPI 的示例。该方法在 Mujoco 机器人仿真任务中优于传统 TD3 方法和其他风险规避控制方法。

Apr, 2020

超越方差减少：理解基线对策略优化的真正影响

本文针对这些技术因满足不了多步骤MARKOV决策过程的情况下的算法运转动态，证明了在赌博机和强化学习问题中，曲率和噪声不能充分解释这些问题，若算法收敛进行的选择不当，有可能无法打到期望的效果并进行理论论证。我们实验证明了这一理论发现，并将其扩展到多状态MDPs 。

Aug, 2020

方差惩罚的在线与离线行为者-评论家算法

本研究提出了基于策略梯度方法的强化学习算法，通过对回报的方差进行惩罚，保证了算法的效果可靠，并在标准测试环境下展示了相应结果。

Feb, 2021

基于模型的风险意识策略优化的认知变异性

基于模型的强化学习中，我们考虑量化预期累积奖励的不确定性问题。我们提出了一个新的不确定性 Bellman 方程，其收敛到真实后验价值方差并在表格型探索问题中降低遗憾。我们鉴定了超越表格问题的应用挑战，并提出了相应的近似方法。基于这个近似，我们引入了一种通用的策略优化算法，Q-不确定性软 Actor-Critic（QU-SAC），可在风险追求或风险规避的策略优化中进行最小程度改动。在线与离线强化学习的实验结果表明相较于其他不确定性估计方法，性能得到了提升。

Dec, 2023