Mar, 2020

时序差分学习是否最优?一种实例相关的分析

TL;DR通过引入变量缩减形式的随机逼近,本研究提出了一种实例依赖的策略评估算法,并在非渐近条件下实现了优化性能,同时在理论上证明了其优越性。