Jun, 2021

有限时间 MDPs 的全局问题相关后悔下限

TL;DR针对有限时间表格 MDPs 的后悔最小化问题,我们推导了一个新颖的渐近问题相关下限。尽管与先前的工作类似(例如针对遍历 MDPs 的工作),这个下限是一个优化问题的解,但我们的推导表明需要在状态 - 动作对的访问分布上附加一个额外的约束条件,以明确考虑 MDP 的动态性。通过一系列示例,我们提供了我们下界的表征,说明不同的 MDP 可能具有显着不同的复杂性。