Oct, 2012

带有对抗奖励和赌徒反馈的确定性马尔可夫决策过程

TL;DR本文提出了一种高效的在线决策算法 MarcoPolo,用于处理具有确定性状态转移动态、对抗生成的奖励和旁观者反馈模型的 Markov 决策过程,并证明该算法满足 O (T^(3/4) sqrt (log (T))) 的遗憾边界。