Dec, 2022

VO$Q$L: 非线性函数逼近下无模型强化学习的最优遗憾

TL;DR该研究旨在通过引入新算法 VOQL,改进理论边界,并实现对线性MDP等函数类的回归任务进行计算上的高效且统计优化的可行性。