Aug, 2012

简单形法解决确定性 Markov 决策问题的强多项式时间复杂度

TL;DR我们证明采用最高的增益 / 负减少成本枢轴规则的单纯形法在确定性马尔科夫决策过程 (MDPs) 中收敛于强多项式时间,无论折扣因子如何。对于具有 n 个状态和 m 个动作的确定性 MDP,我们证明如果折扣因子是均匀的,则单纯形法需要 O (n^3m^2log^2 n) 次迭代,在每个动作都有不同折扣因子的情况下,它需要 O (n^5m^3log^2 n) 次迭代。