解决大规模马尔可夫决策过程的更快鞍点优化

Sep, 2019

Faster saddle-point optimization for solving large-scale Markov decision processes

Joan Bas-Serrano, Gergely Neu

TL;DR本文研究在平均回报马尔科夫决策过程中计算最优策略的问题，使用鞍点优化方法直接构建一个可行的线性规划问题，但变量数目与状态数成线性关系，因此提出了线性松弛版本。论文从特征化的角度提出了一些潜在问题，设计了一个算法，可以获得快速的收敛率，不受状态空间大小的影响。

Abstract

We consider the problem of computing optimal policies in average-reward markov decision processes. This classical problem can be formulated as a