May, 2024

理解预训练变压器在序贯决策中的训练和泛化

TL;DR本文考虑了一类顺序决策问题的受监督预训练变压器模型,并且提出了一种解决预训练变压器训练及泛化问题的自然方法,该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时,文章还分析了预训练变压器作为一种算法的特性,解释了其缺乏探索性和如何自动解决此问题,并在数值上将其与结构化算法相比较。