Feb, 2014

大规模马尔可夫决策问题的线性规划

TL;DR本文考虑了控制具有大状态空间的马尔可夫决策过程以最小化平均成本的问题,并使用线性规划和两种方法,即基于随机凸优化和基于约束采样的方法,将性能提高到与在低维策略类中的任何策略相比的最佳水平。