BriefGPT.xyz
Ask
alpha
关键词
refined discretization of limiting odes
搜索结果 - 1
直接梯度时差学习
提出一种直接解决双重采样问题的方法,通过在逐渐增大的马尔可夫数据流中使用两个样本,该算法在计算上与 Gradient Temporal Difference (GTD) 一样高效,但摆脱了 GTD 的额外权重,而唯一的代价是随着时间的推移,
→
PDF
a year ago
Prev
Next