ACLMay, 2021

FNet: 用 Fourier 变换混合 token

TL;DR通过使用线性混合器代替自注意层,与标准的非线性前馈层一起能够在几个文本分类任务中模拟语义关系。用标准、非参数特定的傅里叶变化替换 Transformer 编码器中的自注意子层在 GLUE 基准测试上取得了 92-97% 的 BERT 模型的准确性,同时在标准 512 输入长度的 GPU 上训练速度提高了 80%,在 TPU 上提高了 70%。在更长的输入长度上,FNet 模型速度极快,在长序列基准测试中,FNet 模型能够匹配最精确模型的准确性,提供更快的模型训练速度。此外,FNet 的内存占用相对较小,在较小的模型尺寸下运行的性能优于 Transformer 模型。