Oct, 2021

PER-ETD: 多项式高效的强调时序差分学习方法

TL;DR本文提出了一种新的ETD方法PER-ETD,通过每次评估参数的迭代周期内重启和更新后续跟踪,采用对数增长的设计来保证方差和偏差之间的最佳权衡,并保持两者亚线性消失,实现了与ETD相同的理想固定点收敛,但改善了ETD的指数样本复杂度为多项式级别,实验证明PER-ETD具有优越性能和优势。