Apr, 2017

随机线性规划以几乎线性(有时是亚线性)的运行时间解决折扣马尔科夫决策问题

TL;DR提出一种新的随机线性规划算法,利用价值 - 策略对偶和二叉树数据结构,自适应地采样状态 - 动作 - 状态转移,并进行指数原始 - 对偶更新,从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些特殊的数据格式指定时,该算法使用线性的运行时间,在状态 - 动作对的总数中是次线性的,为解决随机动态规划问题提供了新的途径和复杂性基准。