Feb, 2024
Transformer 模型在上下文自回归学习中的性能表现
How do Transformers perform In-Context Autoregressive Learning?
Michael E. Sander, Raja Giryes, Taiji Suzuki, Mathieu Blondel, Gabriel Peyré
TL;DR基于 Transformer 模型的研究探讨其训练和预测过程中生成下一个 token 的方式,同时研究了正交矩阵和位置编码对于模型性能的影响。