May, 2024

具有条件风险价值的鲁棒风险敏感强化学习

TL;DR使用固定过渡概率的标准马尔科夫决策过程(MDPs)的替代方案,鲁棒马尔科夫决策过程(RMDPs)在不确定性集合中优化最坏情况下的结果。本文研究了在RMDP下基于CVaR的风险敏感强化学习的鲁棒性,分析了预先设定的不确定性集合和状态动作相关的不确定性集合,提出了风险度量NCVaR和相应的优化方法,并通过仿真实验验证了该方法的有效性。