Jan, 2015

马尔可夫决策过程中的分布鲁棒对应物

TL;DR本文研究了参数不确定的马尔可夫决策过程,利用分布鲁棒优化框架来得到在最具有敌意的分布下的最大性能期望值。通过将不确定参数视为随机变量,本文泛化了以前的研究并证明,在较温和的技术条件下,可以高效地获得最优策略,这极大地扩展了分布鲁棒 MDP 集成不确定性的概率信息的灵活性。