Feb, 2020

确定性系统中基于函数逼近的无神论 Q 学习:逼近误差和样本复杂度的严格界限

TL;DR研究了确定性系统中基于函数逼近的 agnostic Q-learning 问题,并提出了一种新颖的递归算法,证明了采用该算法可以找到最优策略,同时满足多项约束条件。