RealFormer: 喜欢残差注意力的 Transformer

ACLDec, 2020

RealFormer: 喜欢残差注意力的 Transformer

RealFormer: Transformer Likes Residual Attention

Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie

TL;DR提出了一种名为 RealFormer 的技术，可以创建残差注意力层的 Transformer 网络，并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练，而且还可以导致具有更少注意力的模型，并提供了预训练检查点。

Abstract

transformer is the backbone of modern nlp models. In this paper, we propose realformer, a simple and generic technique to create

transformer realformer residual attention layer nlp models pre-trained checkpoints

发现论文，激发创造

Reformer：高效 Transformer

本文介绍了两种技术以提高 Transformer 的效率：使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层，减少存储激活的次数。改进后的模型 Reformer 在处理长序列时比 Transformer 更加高效。

Jan, 2020

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

PartialFormer：建模部分而非整体

本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构，利用多个较小的前馈神经网络来减少参数和计算量，同时保持重要的隐藏维度，并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法，对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。

Oct, 2023

将残差和归一化层引入掩码语言模型分析中

通过全面分析 Transformer 架构（多头注意力、残差连接和层归一化）来研究其性能表现，发现中间表示的交互通过注意力执行的作用比先前假定的要小，并提供了新的直观解释。

Sep, 2021

ReduceFormer：通过求和进行张量缩减的注意力

Transformers 的计算机视觉任务中，通过使用简化架构和改进的推理性能的 ReduceFormer 模型系列，有效地解决了传统 Transformer 模型中的计算问题，降低了延迟和提高了吞吐量，适用于计算资源和内存带宽有限的边缘设备以及追求高吞吐量的云计算。

Jun, 2024

关注在语音分离中至关重要

本文介绍了一种基于 Transformers、无 RNN 结构的深度神经网络，即 SepFormer，并运用多尺度方法使其实现短时和长时依赖性的学习，从而在语音分离任务中取得了最优结果，并具有较高的计算速度和较小的内存占用。

Oct, 2020

MetaFormer 对于计算机视觉是必不可少的

通过取代 Transformers 中的注意力机制，使用空间 MLPs，从而验证了 Transformers 的总体架构（MetaFormer）对模型性能的贡献更为关键。提出了 MetaFormer 的概念，这是一个抽象出 Transformers 中 token mixer 以外的通用架构，并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。

Nov, 2021

MultiResFormer：自适应多分辨率建模的转换器用于通用时间序列预测

提出一种名为 MultiResFormer 的基于 Transformer 的模型，通过自适应选择最佳的 patch 长度来动态建模时间序列的变化，并在长期预测任务中优于基于 patch 的 Transformer，同时使用比 CNN 基线更少的参数。

Nov, 2023

Brainformers: 简单性与效率的平衡

本文介绍了一种名为 Brainformer 的复合深度神经网络模型，其中包括稀疏门控前馈层、紧密前馈层、自注意层以及不同形式的层规范化和激活函数。 Brainformer 模型表现优异且更为高效，比当前最先进的密集和稀疏的 Transformers 模型快 5 倍。在下游任务评估中，Brainformer 模型与 GLaM 模型相比，细调后 SuperGLUE 得分高出 3％。

May, 2023

残差卷积演化关注机制

本文提出一种基于演化注意力的新型通用机制，通过残差连接实现前一层的注意力指导后一层，并采用卷积层来建模对注意力图的演化过程，在多个任务上显著提高了性能。

Feb, 2021