May, 2024

序列压缩加速增强学习中的信用分配

TL;DR时间差分学习中的时间分配问题是具有挑战性的,本文提出了一种名为Chunked-TD的算法,它使用来自模型的预测概率来计算lambda回报目标,相对于其他基于模型的解决方案,Chunked-TD更不容易受到模型的不准确性影响,该算法可以在线实施,解决了某些问题比传统的TD(lambda)算法更快。