Oct, 2021

Scatterbrain: 统一稀疏和低秩注意力逼近

TL;DR通过将局部敏感哈希(locality sensitive hashing,LSH)和核特征映射(kernel feature map)结合,我们提出了 Scatterbrain 方法来统一稀疏 Attention 和低秩 Attention,以进行精确和高效的逼近;在服务于 BigGAN 图像生成和基于预训练 T2T-ViT 模型中,Scatterbrain 可以实现比基线低 2.1 倍的误差。在 T2T Vision Transformer 模型中,Scatterbrain 即使没有微调,也可以在准确率只下降 1%的情况下减少 98%的注意力内存。对于语言建模和长距任务,我们的方法相对于稀疏或低秩 Transformers,具有更高的困惑度和平均准确率。