Jun, 2023

具有顺序最优遗憾界限的核化强化学习

TL;DR针对使用核回归时的强化学习问题,我们提出了一种乐观性的改进最小二乘法值迭代方法,我们证明了其在一般情况下具有一阶最优遗憾保证,其结果比现有技术有显着的多项式改进。