RealFormer: 喜欢残差注意力的 Transformer
本文介绍了两种技术以提高 Transformer 的效率:使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层,减少存储激活的次数。改进后的模型 Reformer 在处理长序列时比 Transformer 更加高效。
Jan, 2020
提出了一种名为 MASFormer 的变种 Transformer 模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能,同时显著降低计算成本(多达 75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。
Oct, 2023
本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构,利用多个较小的前馈神经网络来减少参数和计算量,同时保持重要的隐藏维度,并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法,对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。
Oct, 2023
通过全面分析 Transformer 架构(多头注意力、残差连接和层归一化)来研究其性能表现,发现中间表示的交互通过注意力执行的作用比先前假定的要小,并提供了新的直观解释。
Sep, 2021
Transformers 的计算机视觉任务中,通过使用简化架构和改进的推理性能的 ReduceFormer 模型系列,有效地解决了传统 Transformer 模型中的计算问题,降低了延迟和提高了吞吐量,适用于计算资源和内存带宽有限的边缘设备以及追求高吞吐量的云计算。
Jun, 2024
本文介绍了一种基于 Transformers、无 RNN 结构的深度神经网络,即 SepFormer,并运用多尺度方法使其实现短时和长时依赖性的学习,从而在语音分离任务中取得了最优结果,并具有较高的计算速度和较小的内存占用。
Oct, 2020
通过取代 Transformers 中的注意力机制,使用空间 MLPs,从而验证了 Transformers 的总体架构(MetaFormer)对模型性能的贡献更为关键。提出了 MetaFormer 的概念,这是一个抽象出 Transformers 中 token mixer 以外的通用架构,并将提出的 PoolFormer 作为未来 MetaFormer 架构设计的起点基线模型。
Nov, 2021
提出一种名为 MultiResFormer 的基于 Transformer 的模型,通过自适应选择最佳的 patch 长度来动态建模时间序列的变化,并在长期预测任务中优于基于 patch 的 Transformer,同时使用比 CNN 基线更少的参数。
Nov, 2023
本文介绍了一种名为 Brainformer 的复合深度神经网络模型,其中包括稀疏门控前馈层、紧密前馈层、自注意层以及不同形式的层规范化和激活函数。 Brainformer 模型表现优异且更为高效,比当前最先进的密集和稀疏的 Transformers 模型快 5 倍。在下游任务评估中,Brainformer 模型与 GLaM 模型相比,细调后 SuperGLUE 得分高出 3%。
May, 2023