Oct, 2017

原始 - 对偶 π 学习:对遍历式马尔可夫决策问题的样本复杂度和亚线性运行时间

TL;DR本文提出了一种基于 Primal-Dual π Learning 的方法,利用线性对偶性更新价值与策略向量以逼近无穷时间和折扣因子为 1 的马尔可夫决策过程的最优策略,并给出了复杂度上界,并且这种方法还能应用于有限状态、有限动作空间以及随机转移概率模型下的计算问题,当情况许可下,此方法可以在次线性时间内解决平均奖励最大化的问题。