长期风险价值 (CVaR) 标准下的风险敏感马尔可夫决策过程
本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题,并提出了策略梯度和演员评论算法,以在局部风险敏感的最优策略中更新策略参数,解决了一个最优停止问题。
Jun, 2014
本文提出了一种在 MDP 框架下考虑风险和建模误差的决策方法,采用风险敏感条件价值风险 (CVaR) 目标,同时探讨了 CVaR MDP 框架在风险敏感和鲁棒决策制定中的应用,其理论分析和数值实验结果均证明了该方法的实用性和有效性。
Jun, 2015
以 Markov 决策过程为基础,采用面对不确定性的乐观主义原则,使用一种乐观主义的分布 Bellman 算子,将回报分布的概率质量从下尾部移动到上尾部,从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR 最优策略。
Nov, 2019
基于条件期望的公式,我们提出了一种新的基于采样的 CVaR 梯度估计器,类似于似然比方法。我们分析了估计器的偏差,并证明了相应随机梯度下降算法的收敛性,使 CVaR 优化可以在新的领域应用。例如,我们考虑一个强化学习应用,为 Tetris 游戏学习风险敏感的控制器。
Apr, 2014
使用固定过渡概率的标准马尔科夫决策过程(MDPs)的替代方案,鲁棒马尔科夫决策过程(RMDPs)在不确定性集合中优化最坏情况下的结果。本文研究了在 RMDP 下基于 CVaR 的风险敏感强化学习的鲁棒性,分析了预先设定的不确定性集合和状态动作相关的不确定性集合,提出了风险度量 NCVaR 和相应的优化方法,并通过仿真实验验证了该方法的有效性。
May, 2024
我们研究了风险敏感的强化学习 (RL),其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL,功能逼近必须得到部署。在非线性功能逼近中,我们研究了低秩 MDPs 中的 CVaR RL。低秩 MDPs 假设底层转移核函数具有低秩分解,但与线性模型不同,低秩 MDPs 不假设已知特征或状态 - 动作表示。我们提出了一种新颖的上限信心界 (UCB) 奖励驱动算法,以在 CVaR RL 中精确平衡勘探、开发和表征学习之间的相互作用。我们证明我们的算法可以以样本复杂度 Õ((H^7 A^2 d^4) / (τ^2 ε^2)) 实现 ε- 最优 CVaR,其中 H 是每个 episode 的长度,A 是动作空间的容量,d 是表示的维度。在计算方面,我们为 CVaR 目标设计了一种新颖的离散最小二乘值迭代 (LSVI) 算法作为规划预期,并展示了我们可以在多项式时间内通过最大似然估计规划预期来找到接近最优的策略。据我们所知,这是第一个在低秩 MDPs 中可以被证明的有效的 CVaR RL 算法。
Nov, 2023
本文研究了风险受限随机最短路径问题中的条件风险价值,提出了两种基于随机逼近、小批量、策略梯度和重要性采样的本地风险最优策略算法,并将条件风险价值估计过程纳入算法中进行梯度和方差的估计和降低。
May, 2014
研究一种基于条件风险价值(CVaR)的风险规避统计学习框架,提出了基于随机梯度下降的算法。对于凸和 Lipschitz 的损失函数,该算法收敛到最优 CVaR,而对于非凸和平滑的损失函数,该算法在 CVaR 上的泛化界表现良好。通过在各种机器学习任务上进行数值实验,证明了该算法有效地将 CVaR 最小化。
Feb, 2020
本文研究在线优化中的非稳态环境,以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略,使用条件风险价值 (CVaR) 作为风险度量,并使用零阶优化方法来估计 CVaR 梯度。理论结果表明,我们设计的学习算法在凸和强凸函数上能够以高概率实现子线性动态遗憾。同时,数值实验在停车场动态定价方面展示了所设计算法的有效性。
Apr, 2024
估算 Markov 成本过程中的风险价值和条件风险价值的无穷时段折扣成本的误差的上下界,并讨论了覆盖更一般风险度量的估计方案扩展。
Oct, 2023