ICMLFeb, 2020

学习具有低基本 Bellman 误差的近最优策略

TL;DR研究在近似线性行动价值函数的情况下,基于低内在 Bellman 误差的探索问题,给出了一种算法,其高概率的遗憾上界与特征维数和 Bellman 误差有关,同时将其与先前的工作进行了比较,在线性 MDP 的情况下,证明了这个算法具有统计效率。