本文研究了风险受限随机最短路径问题中的条件风险价值,提出了两种基于随机逼近、小批量、策略梯度和重要性采样的本地风险最优策略算法,并将条件风险价值估计过程纳入算法中进行梯度和方差的估计和降低。
May, 2014
本文提出了一种在 MDP 框架下考虑风险和建模误差的决策方法,采用风险敏感条件价值风险 (CVaR) 目标,同时探讨了 CVaR MDP 框架在风险敏感和鲁棒决策制定中的应用,其理论分析和数值实验结果均证明了该方法的实用性和有效性。
Jun, 2015
本文提出了一种新的算法 Forward-PECVaR,用于确切评估具有非均匀成本的 CVaR-SSPs 的稳态策略,并通过实证评估 CVaR Value Iteration 算法的质量以及算法参数对解决方案的质量和可伸缩性的影响。
Mar, 2023
该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险 - 厌恶问题的可行马尔可夫策略,并通过数值实验验证了该方法的有效性。
Dec, 2020
使用固定过渡概率的标准马尔科夫决策过程(MDPs)的替代方案,鲁棒马尔科夫决策过程(RMDPs)在不确定性集合中优化最坏情况下的结果。本文研究了在 RMDP 下基于 CVaR 的风险敏感强化学习的鲁棒性,分析了预先设定的不确定性集合和状态动作相关的不确定性集合,提出了风险度量 NCVaR 和相应的优化方法,并通过仿真实验验证了该方法的有效性。
May, 2024
本文提出了一种广义风险测量的框架,应用加权规范空间研究了马尔科夫控制过程中的风险敏感性优化问题,并提出了新的贴现方案和 Lyapunov 稳定性条件。
Oct, 2011
本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题,并提出了策略梯度和演员评论算法,以在局部风险敏感的最优策略中更新策略参数,解决了一个最优停止问题。
Jun, 2014
本文介绍了一个基于约束的随机规划问题,其中利用整数线性规划方法确保了确定性决策,同时为安全性关键的应用提供了约束违规概率的上界。同时还介绍了确定性策略和随机策略的随机舍入过程,并探讨了如何在考虑不同时间步的约束情况下进行 CC-SSP 的推广。
Feb, 2023
本文研究了使用基于敏感性的优化方法来解决具有长期 CVaR 标准的无限期离散时间 MDP 的最优策略问题,利用伪 CVaR 度量导出了 CVaR 的差分公式并推导出了 CVaR 的局部最优条件和全局最优条件的必要性,提出了一种策略迭代算法并进行数值实验以证明主要结论。
Oct, 2022
本文研究带错误状态的马尔可夫决策过程,并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务,实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。
Sep, 2011