Oct, 2023

基于监督预训练的证明上下文强化学习中的变压器决策者

TL;DR该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型,提出了两种训练方法并证明了其能近似实现专家算法,同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法,这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。