Oct, 2023
基于监督预训练的证明上下文强化学习中的变压器决策者
Transformers as Decision Makers: Provable In-Context Reinforcement
Learning via Supervised Pretraining
TL;DR该研究论文通过理论框架分析了用于ICRL的监督预训练transformer模型,提出了两种训练方法并证明了其能近似实现专家算法,同时证明了ReLu注意力的transformer能高效地近似最优在线强化学习算法,这为离线轨迹预训练的transformer模型的ICRL能力提供了首次量化分析。