May, 2024

序列压缩加速增强学习中的信用分配

TL;DR时间差分学习中的时间分配问题是具有挑战性的,本文提出了一种名为 Chunked-TD 的算法,它使用来自模型的预测概率来计算 lambda 回报目标,相对于其他基于模型的解决方案,Chunked-TD 更不容易受到模型的不准确性影响,该算法可以在线实施,解决了某些问题比传统的 TD (lambda) 算法更快。