May, 2020

广义值函数逼近的强化学习:通过受限逃避维数可证明高效方法

TL;DR本文提出一种基于一般价值函数逼近的强化学习算法,目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似,该算法将实现后悔界,为实际中使用的算法提供一个框架来证明其有效性。