BriefGPT.xyz
Ask
alpha
关键词
finite time behavior
搜索结果 - 1
经验回放的时间差分学习
本文介绍了一种关于 Temporal-difference (TD) 学习与经验重放的算法,并提出了对其有限时间和误差控制的方法。
PDF
a year ago
Prev
Next