ICMLApr, 2011

马尔可夫决策过程中的均值 - 方差优化

TL;DR本文研究了含有累积回报的均值和方差的性能度量下的有限时域马尔科夫决策过程 (Markov decision processes),并证明了对于某些情况下,计算在方差约束下使均值回报最大的策略的复杂度是 NP 难问题,并提供了伪多项式精确和逼近算法。