Feb, 2015

马尔可夫决策过程中多重平均回报目标的统一视角

TL;DR本文研究具有多个极限平均(或均值支付)目标的马尔可夫决策过程,囊括了优化期望和满足约束的两种语义,并考虑到具有风险规避策略的优化问题。文章的主要结果包括:多项式时间的算法、多项式大小的 Pareto 曲线近似计算和策略复杂性的完整刻画。