Aug, 2016

强化学习中遗憾下界的研究

TL;DR本文澄清了强化学习的遗憾下限,提出了一个对于REGAL论文中的定理6的推测,并提出了一个比Bartlett和Tewari 2009所提出的更严格的下限。