Jun, 2020

使用对数遗憾值的 $Q$- 学习

TL;DR该论文展示了第一个非渐近结果,证明了如果最优 $Q$- 函数存在严格正的次优性差,则无模型算法可以实现每段落的表格强化学习的对数累积后悔,并且我们将我们的分析扩展到折扣设置,并获得类似的对数累积后悔界限。