May, 2024

基于 Transformer 的上下文强化学习中学习时间差分方法

TL;DR此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习(TD learning)以及其他许多策略评估算法,通过使用多任务 TD 算法进行训练,并进行了理论分析。