Mar, 2020
时序差分学习是否最优?一种实例相关的分析
Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis
Koulik Khamaru, Ashwin Pananjady, Feng Ruan, Martin J. Wainwright, Michael I. Jordan
TL;DR通过引入变量缩减形式的随机逼近,本研究提出了一种实例依赖的策略评估算法,并在非渐近条件下实现了优化性能,同时在理论上证明了其优越性。