Sliceformer：在判别任务中将多头注意力变得简单如排序

Oct, 2023

Sliceformer：在判别任务中将多头注意力变得简单如排序

Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks

Shen Yuan, Hongteng Xu

TL;DR我们提出了 Sliceformer 作为 Transformer 的替代模型，通过简单的切片排列操作实现了高效的计算和普适的效果，同时可以有效抑制数据表示中的模式坍缩风险。

Abstract

As one of the most popular neural network modules, transformer plays a central role in many fundamental deep learning models, e.g., the ViT in computer vision and the BERT and GPT in natural language processing. The effectiveness of the →

transformer multi-head attention sliceformer computational complexity mode collapse

发现论文，激发创造

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

Multiformer：基于可配置头部的 Transformer 模型的直接语音翻译

本文提出了一种基于 Transformer 的新模型 Multiformer，它可以根据任务需要在不同的头上应用不同的注意力机制，从而有力地解决了长序列和相邻 token 冗余等问题。同时，我们发现各头权重分布均匀的模型可以取得更好的效果。

May, 2022

无注意力 Spikformer: 将脉冲序列与简单线性转换混合

通过将自注意力能力和脉冲神经网络（SNNs）的生物特性相结合，Spikformer 将蓬勃发展的 Transformer 架构应用于 SNN 设计。它引入了脉冲自注意力（SSA）模块，使用脉冲形式的查询、键和值来混合稀疏视觉特征，与之前的类 SNN 框架相比，在许多数据集上呈现出最先进的性能。该论文证明了 Spikformer 架构可以通过将 SSA 替换为非参数化的线性变换（LT），如傅里叶和小波变换，来加速。这些变换被用于混合脉冲序列，将二次时间复杂度降低为对数线性时间复杂度。它们在频率和时间域之间交替提取稀疏视觉特征，展示了强大的性能和效率。我们在使用神经形态学和静态数据集进行图像分类方面进行了广泛的实验。结果表明，与具有 SSA 的最先进的 Spikformer 相比，具有 LT 的 Spikformer 在神经形态学数据集上实现了更高的 Top-1 准确率，并且在静态数据集上实现了可比较的 Top-1 准确率。此外，与需要可学习参数的 SSA 相比，具有 LT 的 Spikformer 实现了约 29％至 51％的训练速度提升，61％至 70％的推断速度提升，并且减少了 4％至 26％的内存使用量。

Aug, 2023

NiNformer：一种带有令牌混合生成门控函数的网络中网络 Transformer

该论文介绍了一种用于减少计算负担的新的计算模块，通过替换标准的注意力层为具有动态学习元素级门控函数的网络结构，增强了 MLP Mixer 的静态方法，从而在图像分类任务中比基准架构表现更好。

Mar, 2024

具有分区注意力的双路径 Transformer

本文介绍了一种新颖的双重注意机制，包括由卷积神经网络生成的局部注意和由 Vision Transformer 生成的长程注意，提出了一种新的多头分区关注机制（MHPA）来解决计算复杂性和内存占用的问题，并基于此提出了一个分层视觉骨干网络 DualFormer，在多个计算机视觉任务中都取得了比较好的表现。

May, 2023

单个注意力层可以学到什么？基于随机特征的研究

注意力层是 Transformer 架构的核心组成部分，本研究对单个多头注意力层的学习和泛化进行了严格的理论研究，探讨了随机特征设置下注意力层对目标函数的表达能力、学习复杂度以及采样分布的影响等方面，实验证明了理论结果并展示了样本大小与目标函数复杂度之间的相互作用。

Jul, 2023

SpectFormer：视觉 Transformer 中所需的频率和注意力

本研究旨在通过将谱层和多头注意力层结合起来提出 Spectformer 架构，该架构的表现优于其他转换器表示形式，特别是在图像识别任务中。

Apr, 2023

Dozerformer: 序列自适应稀疏 Transformer 用于多变量时间序列预测

基于 Dozer Attention 机制的 Dozerformer 框架在多元时间序列（MTS）预测任务中取得了出色的性能，该机制通过解决注意力机制中的两个关键限制，即二次时间复杂度和基于整个历史序列生成未来值的问题，来捕捉 MTS 数据的局部性、季节性和全局时间依赖性。

Dec, 2023

Set Transformer: 基于注意力机制的置换不变神经网络框架

介绍了一种解决多实例学习和 3D 形状识别等问题的神经网络模型 Set Transformer，该模型使用注意力机制来模拟输入集合中元素之间的交互，并且引入了一种减少计算复杂度的基于诱导点的注意力方案，实验结果表明，在处理集合结构数据时，该模型具有比其他最新方法更高的性能表现。

Oct, 2018

扁平 Transformer：使用专注线性注意力的视觉 Transformer

我们提出了一种新颖的线性关注模块，通过引入简单但有效的映射函数和高效的排名恢复模块，提高了自注意力的表达能力，同时保持了低计算复杂度。大量实验证明，我们的线性关注模块适用于各种先进的视觉 Transformer，并在多个基准测试中实现了持续改进的性能。

Aug, 2023