ICMLJul, 2018

Q 学习是否可以被有效证明?

TL;DR该研究论文探讨了模型无关的强化学习算法的样本效率问题,证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率,且无需模拟器,达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。