Oct, 2023

变形金刚因果语言建模的元学习视角

TL;DR我们通过解释 Transformer 架构内部可能发生的内部优化过程,建立了一种元学习视角,从而理解了 Transformer 架构在因果语言建模任务中的训练过程。此外,我们通过实验和对真实数据的理论分析,发现并探索了 Transformer 基于因果语言模型中学习到的标记表示的一种特殊特征。