BriefGPT.xyz
大模型
Ask
alpha
关键词
transformer training
搜索结果 - 3
张量注意力训练:高阶 Transformer 的可证明高效学习
我们证明了张量注意力训练的反向梯度可以以几乎线性的 $n^{1+o (1)}$ 时间计算,同时提供了梯度的闭式解,并通过多项式逼近和张量代数技巧提出了一种快速计算方法。我们的理论结果证实了高阶 Transformer 训练的可行性,并可能促
→
PDF
a month ago
MM
线性注意力或许是你所需的全部(理解 Transformer 优化的)
通过对线性化浅层 transformer 模型的研究,我们对 transformer 训练的复杂性有了更深入的了解,并观察到线性化模型能够重现 transformer 训练动态的几个重要方面,因此,本文的结果表明简单的线性化 transfo
→
PDF
9 months ago
不含泪的 Transformer: 改进自注意力的规范化
通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用,能够加速模型训练,使其更加稳定,从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。
PDF
5 years ago
Prev
Next