BriefGPT.xyz
Ask
alpha
关键词
bootstrap updates
搜索结果 - 1
神经网络的时序差分学习 —— 泄漏传播问题的研究
本研究探讨用函数逼近的时序差分学习论(TD)可收敛至比蒙特卡罗回归更劣的解的问题,以及针对价值函数在出现急剧不连续的地方的逼近误差在自举更新中何以进一步扩散的问题。我们通过实证找到了泄漏扩散的证据,并论证了仅当逼近误差时,这种情况会出现。最
→
PDF
6 years ago
Prev
Next