BriefGPT.xyz
Ask
alpha
关键词
chunked-td
搜索结果 - 1
序列压缩加速增强学习中的信用分配
时间差分学习中的时间分配问题是具有挑战性的,本文提出了一种名为 Chunked-TD 的算法,它使用来自模型的预测概率来计算 lambda 回报目标,相对于其他基于模型的解决方案,Chunked-TD 更不容易受到模型的不准确性影响,该算法
→
PDF
2 months ago
Prev
Next