Feb, 2024

Transformer 模型在上下文自回归学习中的性能表现

TL;DR基于 Transformer 模型的研究探讨其训练和预测过程中生成下一个 token 的方式,同时研究了正交矩阵和位置编码对于模型性能的影响。