马尔可夫决策过程中的均值 - 方差优化

ICMLApr, 2011

马尔可夫决策过程中的均值 - 方差优化

Mean-Variance Optimization in Markov Decision Processes

Shie Mannor, John Tsitsiklis

TL;DR本文研究了含有累积回报的均值和方差的性能度量下的有限时域马尔科夫决策过程 (Markov decision processes)，并证明了对于某些情况下，计算在方差约束下使均值回报最大的策略的复杂度是 NP 难问题，并提供了伪多项式精确和逼近算法。

Abstract

We consider finite horizon markov decision processes under performance measures that involve both the mean and the variance of the cumulative reward. We show that either randomized or history-based policies can i

markov decision processes performance measures randomized policies variance np-hard

发现论文，激发创造

折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架

用假均值将混合风险下的 MDP 转化为标准 MDP，并提出一种基于二级优化结构的统一算法框架，该框架还允许收敛性分析。通过数值实验，验证了该算法的有效性。

Jan, 2022

风险厌恶强化学习中的均值半方差策略优化

本文旨在优化均值 - semivariance（MSV）目标，提出了两种基于策略梯度理论和信任域方法的算法，通过在 MuJoCo 上的实验验证其有效性。

Jun, 2022

无限时间平均回报马尔可夫决策过程的方差减少政策梯度方法

基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低，确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian-based 技术为基础，确保了预期后悔度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 数量级。这些结果显著提高了该问题的最新研究成果，其后悔度达到了 $\tilde {\mathcal {O}}(T^{3/4})$ 数量级。

Apr, 2024

马尔可夫决策过程中多重平均回报目标的统一视角

本文研究具有多个极限平均（或均值支付）目标的马尔可夫决策过程，囊括了优化期望和满足约束的两种语义，并考虑到具有风险规避策略的优化问题。文章的主要结果包括：多项式时间的算法、多项式大小的 Pareto 曲线近似计算和策略复杂性的完整刻画。

Feb, 2015

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

块坐标上升算法求解均值 - 方差优化问题

本文提出了一种基于随机块升协方差策略搜索算法的无模型策略搜索框架，通过数值分析证明了其的收敛性和应用性，并将其应用于多个基准域上的风险管理与优化问题。

Sep, 2018

基于方差相关风险标准的策略梯度

本文提出了一种新的公式来计算环节任务成本的方差，并使用该公式提出了基于局部策略梯度算法的风险管理框架，进一步研究了涉及成本期望和成本方差的准则，最终在投资组合计划问题中应用。

Jun, 2012

降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法

提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解，并证明了算法的收敛性和复杂度。同时，结合经典的价值迭代与方差约减技术，改进了该算法的性能，使其具有线性收敛性和渐进最优性。

Oct, 2017

强化学习中尖锐的方差相关界限：随机与确定性环境中的最佳选择

研究马尔可夫决策过程中方差相关的遗憾界限，提出两个新的环境范数并设计了 MVP 算法和参考函数算法进行模型建模和模型自由算法，得到方差相关界限的上界和下界。

Jan, 2023

基于强化学习的离散时间均值方差策略

本文基于强化学习研究了一个基于离散时间的均值方差模型，与其在连续时间中的对应物相比，离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本，我们得出了最优投资策略，其密度函数也是高斯型的。另外，我们设计了相应的强化学习算法。模拟实验和实证分析表明，我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。

Dec, 2023