Jul, 2013

从强盗到专家:一场统治与独立的故事

TL;DR本研究考虑 Mannor 和 Shamir 引入的部分可观测性模型,利用 Exp3 算法在可观测性图上高效运行,以支配和独立数来描述定向可观测性模型的遗憾(regret),并证明在无向情况下,学习者可以在选择行动之前甚至不访问可观测性图前实现最佳遗憾。