Sep, 2019

解决大规模马尔可夫决策过程的更快鞍点优化

TL;DR本文研究在平均回报马尔科夫决策过程中计算最优策略的问题,使用鞍点优化方法直接构建一个可行的线性规划问题,但变量数目与状态数成线性关系,因此提出了线性松弛版本。论文从特征化的角度提出了一些潜在问题,设计了一个算法,可以获得快速的收敛率,不受状态空间大小的影响。