Jun, 2020

L1 - 鲁棒马尔可夫决策过程的部分策略迭代

TL;DR本文探讨了在考虑转移概率不确定性时,如何高效地解决具有 s - 和 sa - 矩形模糊集定义的鲁棒 MDP 问题,并提出了一种新的策略迭代方案和快速计算鲁棒 Bellman 算子的方法。实验结果表明,这些方法比使用线性规划求解器结合鲁棒值迭代的现有方法快得多。