Nov, 2022

具有连续行动空间的区间马尔科夫决策过程

TL;DR通过引入连续动作 Interval Markov Decision Processes (caIMDP) 以及研究求解最大化预期累积奖励的 value iteration 问题,我们证明了在动态系统控制抽象中使用线性规划等方法可以高效地实现在连续动作空间 IMDP 上的值迭代。