Jun, 2020

L1-鲁棒马尔可夫决策过程的部分策略迭代

TL;DR本文探讨了在考虑转移概率不确定性时,如何高效地解决具有s-和sa-矩形模糊集定义的鲁棒MDP问题,并提出了一种新的策略迭代方案和快速计算鲁棒Bellman算子的方法。实验结果表明,这些方法比使用线性规划求解器结合鲁棒值迭代的现有方法快得多。