BriefGPT.xyz
Ask
alpha
关键词
convolution matrices
搜索结果 - 1
Conv-Basis:Transformer 中高效注意力推理与梯度计算的新范式
大型语言模型对世界产生了深远影响,其中自注意机制是 transformer 在大型语言模型中取得成功的关键。然而,长度为 n 的输入序列带来的二次计算复杂度 O (n^2) 一直是对提高和扩展更长上下文的一个难以克服的障碍。本文利用注意力矩
→
PDF
2 months ago
Prev
Next