风险规避强化学习的均值方差策略迭代

AAAIApr, 2020

风险规避强化学习的均值方差策略迭代

Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning

Shangtong Zhang, Bo Liu, Shimon Whiteson

TL;DR本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法，采用任意策略评估方法和风险中立控制方法，通过对一个新颖的扩展 MDP 直接进行处理，减少风险中立控制与风险规避控制之间的差距，并介绍了一种风险规避 TD3 方法作为 MVPI 的示例。该方法在 Mujoco 机器人仿真任务中优于传统 TD3 方法和其他风险规避控制方法。

Abstract

We present a mean-variance policy iteration (MVPI) framework for risk-averse control in a discounted infinite horizon mdp optimizing the variance of a per-step reward random variable. MVPI enjoys great flexibility in that any policy evaluation method and risk-neutral control method can

mean variance policy iteration risk-averse control mdp td3 off-policy

发现论文，激发创造

折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架

用假均值将混合风险下的 MDP 转化为标准 MDP，并提出一种基于二级优化结构的统一算法框架，该框架还允许收敛性分析。通过数值实验，验证了该算法的有效性。

Jan, 2022

风险厌恶强化学习中的均值半方差策略优化

本文旨在优化均值 - semivariance（MSV）目标，提出了两种基于策略梯度理论和信任域方法的算法，通过在 MuJoCo 上的实验验证其有效性。

Jun, 2022

风险厌恶信任区域优化用于奖励波动率降低

本文提出了一种新的风险评估指标 —— 奖励波动率，并建立了一个基于改进后的奖励波动率指标的策略梯度定理。通过在两个模拟的金融环境下进行测试，证明了该方法的有效性。

Dec, 2019

基于强化学习的离散时间均值方差策略

本文基于强化学习研究了一个基于离散时间的均值方差模型，与其在连续时间中的对应物相比，离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本，我们得出了最优投资策略，其密度函数也是高斯型的。另外，我们设计了相应的强化学习算法。模拟实验和实证分析表明，我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。

Dec, 2023

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

无限时间平均回报马尔可夫决策过程的方差减少政策梯度方法

基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低，确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian-based 技术为基础，确保了预期后悔度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 数量级。这些结果显著提高了该问题的最新研究成果，其后悔度达到了 $\tilde {\mathcal {O}}(T^{3/4})$ 数量级。

Apr, 2024

无模型鲁棒平均奖励强化学习

该研究主要关注如何处理模型不确定性对于 Markov 决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。

May, 2023

马尔可夫决策过程中的均值 - 方差优化

本文研究了含有累积回报的均值和方差的性能度量下的有限时域马尔科夫决策过程 (Markov decision processes)，并证明了对于某些情况下，计算在方差约束下使均值回报最大的策略的复杂度是 NP 难问题，并提供了伪多项式精确和逼近算法。

Apr, 2011

降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法

提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解，并证明了算法的收敛性和复杂度。同时，结合经典的价值迭代与方差约减技术，改进了该算法的性能，使其具有线性收敛性和渐进最优性。

Oct, 2017

方差惩罚的在线与离线行为者 - 评论家算法

本研究提出了基于策略梯度方法的强化学习算法，通过对回报的方差进行惩罚，保证了算法的效果可靠，并在标准测试环境下展示了相应结果。

Feb, 2021