Oct, 2014

策略迭代最坏情况复杂度的改进界

TL;DR本文主要探讨关于马尔可夫决策过程解决方案的复杂度问题,研究表明,虽然使用线性规划技术解决方案可以在多项式时间内完成,但使用迭代方法,如策略迭代算法,通常在实践中更高效。同时,本文提出了关于策略迭代算法收敛步数的改进,得出了一个更合理的上限。