Aug, 2016

强化学习中遗憾下界的研究

TL;DR本文澄清了强化学习的遗憾下限,提出了一个对于 REGAL 论文中的定理 6 的推测,并提出了一个比 Bartlett 和 Tewari 2009 所提出的更严格的下限。