Jan, 2019

通过线性规划对偶解决大规模马尔可夫决策问题

TL;DR本文提出了一种针对状态空间较大的MDP问题进行优化的方法,该方法基于一小组策略的占用度量的低维度逼近,并提出了一个有效的算法,可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失,并在队列应用中展示了该方法的有效性。