FNet: 用 Fourier 变换混合 token

ACLMay, 2021

FNet: Mixing Tokens with Fourier Transforms

James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon

TL;DR通过使用线性混合器代替自注意层，与标准的非线性前馈层一起能够在几个文本分类任务中模拟语义关系。用标准、非参数特定的傅里叶变化替换 Transformer 编码器中的自注意子层在 GLUE 基准测试上取得了 92-97% 的 BERT 模型的准确性，同时在标准 512 输入长度的 GPU 上训练速度提高了 80%，在 TPU 上提高了 70%。在更长的输入长度上，FNet 模型速度极快，在长序列基准测试中，FNet 模型能够匹配最精确模型的准确性，提供更快的模型训练速度。此外，FNet 的内存占用相对较小，在较小的模型尺寸下运行的性能优于 Transformer 模型。

Abstract

We show that transformer encoder architectures can be sped up, with limited accuracy costs, by replacing the self-attention sublayers with simple linear transformations that "mix" input tokens. These linear mixers

transformer encoder architectures linear mixers text classification fourier transform fnet model

发现论文，激发创造

Fast-FNet: 通过高效傅里叶层加速 Transformer Encoder 模型

本研究比较了基于 Transformer 的语言模型中的注意力机制和傅里叶变换，并提出了几种采用更高效的傅里叶变换的模型架构，以提高模型效率。

Sep, 2022

MetaMixer 是你所需要的一切

通过将自注意力转换为采用大型卷积和 GELU 激活函数的更类似于 Feed-Forward Network 的有效令牌混合器，作者尝试验证了查询 - 键 - 值框架的重要性，并提出了一种新的混合器体系结构 MetaMixer，在仅使用简单操作（如卷积和 GELU）的情况下取得了卓越的性能改进。

Jun, 2024

PoNet: 长序列中高效的令牌混合池化网络

本文提出了一种新的 Pooling Network (PoNet)，它使用线性复杂度的 token mixing 处理长序列，通过多粒度池化和池化融合来捕获不同级别的上下文信息，并结合 tokens 进行交互来提高模型性能。在长范围竞技基准测试中，PoNet 显著优于 Transformer，同时实现与最快模型 FNet 相当的准确性，在 GPU 上度量所有序列长度时仅比最快模型慢一点。同时文章也进行了系统的研究，证明了 PoNet 设计的多粒度池化和池化融合的加强长序列的 token 混合以及设计的预训练任务可用于学习可转移的上下文化语言表示的有效性。

Oct, 2021

FIT：远距离交错 Transformers

FIT 是一种基于 Transformer 的架构，具有高效的自我关注和自适应计算，它在高分辨率图像理解和生成任务中表现出良好的效果。

May, 2023

傅里叶变换器：通过 FFT 算子消除序列冗余进行快速长距建模

本文提出了 Fourier Transformer，该方法通过使用现成的快速傅里叶变换（FFT）算子来执行离散余弦变换（DCT）来逐步消除隐藏序列中的冗余信息以大大减少计算成本，同时保留了从各种大型预训练模型中继承权重的能力。结果表明，该模型在长距离建模基准 LRA 上实现了所有基于 Transformer 的模型中的最佳性能，在速度和空间方面均有显着改进。对于包括 CNN/DailyMail 和 ELI5 在内的生成 Seq-to-Seq 任务，通过继承 BART 权重，我们的模型优于标准 BART 和其他高效模型。

May, 2023

Legal-HNet：将法律长上下文标记与哈特利变换混合

在本文中，我们探讨了用简单的记号混合机制 ——Hartley 和 Fourier 变换替代基于注意力的层的替代方法，并在法律领域设置中从头开始训练模型。我们还介绍了一种新的混合 Seq2Seq 架构，即无注意力的编码器与有注意力的解码器相连，该架构在现有的文摘任务中表现出色，并且计算和内存需求更低。我们相信，采用这些更简单的基础设施可以实现与抽象文本摘要任务中的长相关性类似甚至更好的性能。这不仅使更多人能够从头训练模型，而且还有助于减少训练过程中的碳足迹。

Nov, 2023

一种广泛前馈即可解决所有问题

通过删除解码器层的 FFN 并在编码器中共享单个 FFN，我们能够大幅减少参数数量，只有轻微的准确率下降，最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸，从而取得了在准确率和延迟方面的显著提升。

Sep, 2023

TransXNet: 通过双动态令牌混合器学习全局和局部动态以进行视觉识别

提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节，通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积，为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 D-Mixer 作为基本构建块设计了 TransXNet，这是一个新颖的混合 CNN-Transformer 视觉主干网络，在 ImageNet-1K 图像分类任务中，TransXNet-T 在 top-1 准确率方面超过了 Swin-T 0.3％，同时仅需要不到一半的计算成本，此外，TransXNet-S 和 TransXNet-B 在合理的计算成本下表现出色，分别达到 83.8％和 84.6％的 top-1 准确率。此外，提议的网络架构在各种密集预测任务中表现出强大的泛化能力，优于其他最先进网络，同时计算成本较低。

Oct, 2023

自适应 Fourier 神经算子：用于 Transformer 的高效标记混合器

介绍一种名为 AFNO 的比自我注意力机制更有效的方法，它可处理高分辨率图片。它基于操作学习的原理，将令牌混合表示为一种连续的全局卷积，具有线性内存和近似线性时间复杂度，适用于 few-shot 分割任务，优于其他效率更高的自我注意力机制。

Nov, 2021

Fastformer：加性注意力足矣

本文介绍了 Fastformer 模型，这是一种基于加法注意力的高效 Transformer 模型，与现有的 Transformer 模型相比，它可以更有效地建模长文本，并且具有线性复杂度。

Aug, 2021