Jun, 2023

经验回放的时间差分学习

TL;DR本文介绍了一种关于 Temporal-difference (TD) 学习与经验重放的算法,并提出了对其有限时间和误差控制的方法。