May, 2024
基于 Transformer 的上下文强化学习中学习时间差分方法
Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning
Jiuqi Wang, Ethan Blaser, Hadi Daneshmand, Shangtong Zhang
TL;DR此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习(TD learning)以及其他许多策略评估算法,通过使用多任务 TD 算法进行训练,并进行了理论分析。