MetaMixer 是你所需要的一切
通过使用线性混合器代替自注意层,与标准的非线性前馈层一起能够在几个文本分类任务中模拟语义关系。用标准、非参数特定的傅里叶变化替换 Transformer 编码器中的自注意子层在 GLUE 基准测试上取得了 92-97% 的 BERT 模型的准确性,同时在标准 512 输入长度的 GPU 上训练速度提高了 80%,在 TPU 上提高了 70%。在更长的输入长度上,FNet 模型速度极快,在长序列基准测试中,FNet 模型能够匹配最精确模型的准确性,提供更快的模型训练速度。此外,FNet 的内存占用相对较小,在较小的模型尺寸下运行的性能优于 Transformer 模型。
May, 2021
该论文介绍了一种用于减少计算负担的新的计算模块,通过替换标准的注意力层为具有动态学习元素级门控函数的网络结构,增强了 MLP Mixer 的静态方法,从而在图像分类任务中比基准架构表现更好。
Mar, 2024
通过删除解码器层的 FFN 并在编码器中共享单个 FFN,我们能够大幅减少参数数量,只有轻微的准确率下降,最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸,从而取得了在准确率和延迟方面的显著提升。
Sep, 2023
通过将 Krotov 的分层关联记忆与 MetaFormers 相结合,该论文提出了一种新的视角,将整个 Transformer 块的完整表示,包括标记 -/ 通道混合模块、层归一化和跳跃连接,作为一个单一的 Hopfield 网络。该方法产生了一个并行化的从三层 Hopfield 网络推导出的 MLP-Mixer,自然地融合了对称的标记 -/ 通道混合模块和层归一化。实证研究揭示了模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效果将对称并行化的 MLP-Mixer 的性能过渡到普通 MLP-Mixer 的性能。这表明在标准训练过程中,普通 MLP-Mixer 的权重矩阵自发地获得对称破缺配置,增强了其有效性。这些发现为 Transformer 和 MLP-Mixer 的内在特性及其理论基础提供了见解,为未来模型设计和优化提供了一个稳健的框架。
Jun, 2024
通过取代 Transformers 中的注意力机制,使用空间 MLPs,从而验证了 Transformers 的总体架构(MetaFormer)对模型性能的贡献更为关键。提出了 MetaFormer 的概念,这是一个抽象出 Transformers 中 token mixer 以外的通用架构,并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。
Nov, 2021
提出了一种轻量级的 Dual Dynamic Token Mixer (D-Mixer) 来聚合全局信息和局部细节,通过在特征分段上分别应用高效的全局注意力模块和输入相关的深度可分离卷积,为网络赋予了强大的归纳偏差和扩大的有效感受野。使用 D-Mixer 作为基本构建块设计了 TransXNet,这是一个新颖的混合 CNN-Transformer 视觉主干网络,在 ImageNet-1K 图像分类任务中,TransXNet-T 在 top-1 准确率方面超过了 Swin-T 0.3%,同时仅需要不到一半的计算成本,此外,TransXNet-S 和 TransXNet-B 在合理的计算成本下表现出色,分别达到 83.8%和 84.6%的 top-1 准确率。此外,提议的网络架构在各种密集预测任务中表现出强大的泛化能力,优于其他最先进网络,同时计算成本较低。
Oct, 2023
我们提出了一种新的变换器解码器 U-MixFormer,基于 U-Net 结构设计的,用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询,我们的方法与以前的变换器方法有所不同。此外,我们创新地混合来自各个编码器和解码器阶段的分层特征图,形成一个统一的键和值表示,从而产生我们独特的混合注意模块。大量实验证明,U-MixFormer 在各种配置上表现出色,并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。
Dec, 2023
本文提出了一种基于多层感知器 (MLP) 的架构,MLP-Mixer,它不需要使用卷积和注意力机制,包含两种类型的层,一种将 MLP 应用于图像补丁,一种将 MLP 应用于补丁之间的位置信息,具有与现代 CNN 和 Transformer 相媲美的预训练和推理成本,希望鼓励更多超越 CNN 和 Transformer 的研究。
May, 2021
本研究探讨了预训练模型 Transformers 中前馈网络(FFN)的计算模式,提出了一种将模型 MoEfication 为多个功能分区的方法,并建立了专家路由器以决定每个输入使用哪个专家。实验结果表明,这种方法可以在保持原始性能的同时使用 10%至 30%的 FFN 参数,同时提高了推断 FLOPS 的效率和提供了一个细粒度的视角来研究 FFN 的内部机制。
Oct, 2021
本文提出了一种名为 attention map hallucination 和 FFN compaction 的技术,可以帮助减少 Vision Transformer 里的重叠和获得更好的性能。
Jun, 2023