针对 Transformer 的预训练和推理的并行注意力和前馈网络设计

May, 2023

针对 Transformer 的预训练和推理的并行注意力和前馈网络设计

Parallel Attention and Feed-Forward Net Design for Pre-training and Inference on Transformers

Shashank Sonkar, Richard G. Baraniuk

TL;DR本文介绍了并行注意力和前馈网络设计（PAF），以提高 Transformer 模型的效率，并评估了它在语言理解任务中的性能与速度表现，与 Series Attention 和 Feed-Forward Net Design 相比，PAF 设计可以实现 1.5 倍到 2 倍的速度提升。

Abstract

In this paper, we introduce parallel attention and feed-forward net design (PAF) for transformer models. →

parallel attention feed-forward net design transformer models efficiency language understanding

发现论文，激发创造

一种广泛前馈即可解决所有问题

通过删除解码器层的 FFN 并在编码器中共享单个 FFN，我们能够大幅减少参数数量，只有轻微的准确率下降，最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸，从而取得了在准确率和延迟方面的显著提升。

Sep, 2023

机器翻译的并行注意力强制

该研究引入了 attention forcing 的两种扩展来解决离散输出的任务中的挑战，包括 scheduled attention forcing 来自动开启和关闭 attention forcing，以及 parallel attention forcing 使训练并行化。实验结果表明，这些方法可以提高基于 RNN 和 Transformer 的模型的性能。

Nov, 2022

PartialFormer：建模部分而非整体

本论文介绍了 PartialFormer—— 一种参数有效的 Transformer 架构，利用多个较小的前馈神经网络来减少参数和计算量，同时保持重要的隐藏维度，并通过一个多头注意力系统实现有效的协同工作。还介绍了一种定制的头缩放策略和改进 PartialFormer 深度扩展的注意力计算方法，对 9 个翻译任务和 1 个抽象摘要任务的大量实验验证了 PartialFormer 方法的有效性。

Oct, 2023

PAFT：一种用于有效的 LLM 微调的并行训练范式

利用新的并行训练范式，这篇论文介绍了 PAFT，它独立对大语言模型进行 SFT 和偏好对齐，并通过参数融合将它们合并成一个用于下游应用的最终模型，提高了模型的性能。

Jun, 2024

Fast-FNet: 通过高效傅里叶层加速 Transformer Encoder 模型

本研究比较了基于 Transformer 的语言模型中的注意力机制和傅里叶变换，并提出了几种采用更高效的傅里叶变换的模型架构，以提高模型效率。

Sep, 2022

神经关注森林：基于 Transformer 的森林改进

本研究提出了一种新的方法 NAFA（神经注意森林），该方法将注意机制引入了随机森林，通过在决策树叶子节点的数据和随机森林本身之间分配由特定形式的神经网络计算得出的注意力权重，在 Nadaraya-Watson 核回归框架下实现了回归和分类任务。

Apr, 2023

掩码注意力网络：对 Transformer 进行反思和优化

本文提出了一种新的理解 Self-Attention Network (SAN) 和 Feed-Forward Network (FFN) 为遮罩注意力网络 (Mask Attention Networks)，并展示了它们是具有固定遮罩矩阵的 MAN 的两个特例。但是，它们的静态遮罩矩阵限制了文本表示学习中的本地性建模能力。因此，我们引入了一种新的层，名为动态遮罩注意力网络 (DMAN)，它具有可学习的遮罩矩阵，可以自适应地建模本地性。为了结合 DMAN、SAN 和 FFN 的优点，我们提出了一个顺序分层结构。在各种任务（包括神经机器翻译和文本摘要）上的广泛实验证明，我们的模型优于原来的 Transformer。

Mar, 2021

TransformerFAM：反馈注意力即工作记忆

我们提出了一种名为反馈注意力记忆（FAM）的新型 Transformer 架构，利用反馈循环使网络能够关注自身的潜在表示，从而促进 Transformer 内部的工作记忆的出现，使其能够处理无限长的序列。通过实验证明，TransformerFAM 在长文本任务中显著改善了 Transformer 的性能，无论模型大小为 1B、8B 还是 24B。这些结果展示了使大型语言模型能够处理无限长序列的潜力。

Apr, 2024

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

PYRA: 并行激活反馈以提高训练与推断的效率的任务适应

我们提出了一种新颖的并行适应重新激活（PYRA）方法，用于训练和推理效率高的任务适应，通过并行产生自适应权重和标记激活策略，以在大规模基础模型中同时保持训练和推理的效率。

Mar, 2024