Aug, 2020

具可证明效率的基于线性值迭代的奖励非相关导航

TL;DR本文提出了一种基于 Bellman 误差的最小平方价值迭代算法的线性函数逼近学习方法,通过足够的探索可以提供强有力的 PAC 保证,并且采用无奖赏情况下计算可行的算法,通过纯探索收集样本可以得到相同级别的 PAC 保证。