Jul, 2022

无 Softmax 的线性变换器

TL;DR提出 SOftmax-Free Transformer (SOFT),其采用高斯核函数替代点积相似度,从而能够通过低秩矩阵分解逼近完整的自注意力矩阵,该模型能够明显提高现有 ViT 变体的计算效率,同时具有线性复杂度,且能够容纳更长的令牌序列,优化了准确率和复杂度之间的权衡。