BriefGPT.xyz
Sep, 2019
解决大规模马尔可夫决策过程的更快鞍点优化
Faster saddle-point optimization for solving large-scale Markov decision processes
HTML
PDF
Joan Bas-Serrano, Gergely Neu
TL;DR
本文研究在平均回报马尔科夫决策过程中计算最优策略的问题,使用鞍点优化方法直接构建一个可行的线性规划问题,但变量数目与状态数成线性关系,因此提出了线性松弛版本。论文从特征化的角度提出了一些潜在问题,设计了一个算法,可以获得快速的收敛率,不受状态空间大小的影响。
Abstract
We consider the problem of computing
optimal policies
in average-reward
markov decision processes
. This classical problem can be formulated as a
→