May, 2019

基于表格型MDPs的非渐进性依赖间隔遗憾上界

TL;DR本文的关键是通过建立一种新的“裁剪”遗憾分解技术,证明了乐观算法能够在有限的步数内以对数遗憾实现相应动态规划问题的最优解,并适用于广泛的最优算法。