ICLRMar, 2023

基于 Transformer 的世界模型需要 100k 次交互

TL;DR使用变换器对真实世界情节进行自回归处理,生成有意义、新的经历,进而训练超越之前强化学习算法的策略。