Nov, 2020

线性函数逼近强化学习的对数遗憾

TL;DR该研究探讨了使用线性函数逼近的强化学习,提出了新的线性 MDP 假设,并通过实验证明了具有对最优行动价值函数的正增量的情况下可以获得对数后悔界限。