Dec, 2020

约束风险厌恶马尔可夫决策过程

TL;DR该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险-厌恶问题的可行马尔可夫策略,并通过数值实验验证了该方法的有效性。