Jun, 2020

针对具有近似最优遗憾度的无限时间平均收益 MDP 的无模型学习算法

TL;DR提出了一种基于EE-QL,结合浓度逼近和无模型弱交流 MDPs 的无模型学习算法,实现了与最佳已知基于模型算法相似的学习速度。