用假均值将混合风险下的 MDP 转化为标准 MDP,并提出一种基于二级优化结构的统一算法框架,该框架还允许收敛性分析。通过数值实验,验证了该算法的有效性。
Jan, 2022
本文旨在优化均值 - semivariance(MSV)目标,提出了两种基于策略梯度理论和信任域方法的算法,通过在 MuJoCo 上的实验验证其有效性。
Jun, 2022
基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低,确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian-based 技术为基础,确保了预期后悔度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 数量级。这些结果显著提高了该问题的最新研究成果,其后悔度达到了 $\tilde {\mathcal {O}}(T^{3/4})$ 数量级。
Apr, 2024
本文研究具有多个极限平均(或均值支付)目标的马尔可夫决策过程,囊括了优化期望和满足约束的两种语义,并考虑到具有风险规避策略的优化问题。文章的主要结果包括:多项式时间的算法、多项式大小的 Pareto 曲线近似计算和策略复杂性的完整刻画。
Feb, 2015
研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题,并通过协同扰动优化算法及其他方法解决难以优化的问题。 最后,论文在交通信号控制应用中展示了算法的实用性。
Mar, 2014
本文提出了一种基于随机块升协方差策略搜索算法的无模型策略搜索框架,通过数值分析证明了其的收敛性和应用性,并将其应用于多个基准域上的风险管理与优化问题。
Sep, 2018
本文提出了一种新的公式来计算环节任务成本的方差,并使用该公式提出了基于局部策略梯度算法的风险管理框架,进一步研究了涉及成本期望和成本方差的准则,最终在投资组合计划问题中应用。
Jun, 2012
提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解,并证明了算法的收敛性和复杂度。同时,结合经典的价值迭代与方差约减技术,改进了该算法的性能,使其具有线性收敛性和渐进最优性。
Oct, 2017
研究马尔可夫决策过程中方差相关的遗憾界限,提出两个新的环境范数并设计了 MVP 算法和参考函数算法进行模型建模和模型自由算法,得到方差相关界限的上界和下界。
Jan, 2023
本文基于强化学习研究了一个基于离散时间的均值方差模型,与其在连续时间中的对应物相比,离散时间模型对资产收益分布作出了更一般的假设。使用熵来衡量探索成本,我们得出了最优投资策略,其密度函数也是高斯型的。另外,我们设计了相应的强化学习算法。模拟实验和实证分析表明,我们的离散时间模型在分析实际数据时比连续时间模型具有更好的适用性。
Dec, 2023