简化 Transformer 块

Nov, 2023

Simplifying Transformer Blocks

Bobby He, Thomas Hofmann

TL;DR通过信号传播理论和经验观察，我们提出了修改的方案，可以简化标准的 Transformer 模块，包括去除跳跃连接、投影或值参数、顺序子模块和归一化层等组件，而无需牺牲训练速度，实验证明这种简化版本的 Transformer 实现了标准 Transformer 的更新速度和性能，同时训练吞吐量提高了 15％，参数数量减少了 15％。

Abstract

A simple design recipe for deep transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle ar

deep transformers standard transformer block training speed simplified transformers fewer parameters

发现论文，激发创造

去除快速通道的深度 Transformer: 修改自注意力实现准确信号传递

通过设计参数初始化、偏差矩阵和位置相关的重缩放的组合，实现信号在无量纲变压器中的可信传播，使得在 WikiText-103 和 C4 上，我们的方法能够使没有标准化的深度变压器以与标准变压器相同的速度训练，并使深度无量纲变压器在大约 5 倍的迭代次数后达到与标准变压器相同的性能。

Feb, 2023

Brainformers: 简单性与效率的平衡

本文介绍了一种名为 Brainformer 的复合深度神经网络模型，其中包括稀疏门控前馈层、紧密前馈层、自注意层以及不同形式的层规范化和激活函数。 Brainformer 模型表现优异且更为高效，比当前最先进的密集和稀疏的 Transformers 模型快 5 倍。在下游任务评估中，Brainformer 模型与 GLaM 模型相比，细调后 SuperGLUE 得分高出 3％。

May, 2023

你的 Transformer 其实是线性的

该研究揭示了一种新颖的线性特性，仅限于 Transformer 解码器，包括 GPT、LLaMA、OPT、BLOOM 等模型。我们分析了顺序层之间的嵌入变换，揭示出几乎完美的线性关系（Procrustes 相似度得分为 0.99）。然而，由于 Transformer 层输出的一致较低的范数，残差成分被移除后，线性度下降。我们的实验证明，移除或线性逼近一些最线性的 transformer 模块对损失或模型性能没有明显影响。此外，在我们的小型模型的预训练实验中，我们引入了基于余弦相似性的正则化，旨在降低层的线性度。这种正则化改善了 Tiny Stories 和 SuperGLUE 等基准测试的性能指标，并成功降低了模型的线性度。该研究挑战了现有对 Transformer 架构的理解，表明它们的操作可能比之前认为的更加线性。

May, 2024

高效压缩子层的 Transformer 解码器

通过压缩 Transformer 模型的 decoder 层中 sub-layers 构建模块，提出了 Compressed Attention Network，实现了更高的并行性，性能与强基线相当，速度加快 1.42 倍。

Jan, 2021

块级 Transformer：全局到局部的语言建模以提高快速推理能力

通过采用分层的全局到局部建模的方法，本研究提出了块变压器架构，以缓解自注意力所带来的推理瓶颈。通过在较低层应用快速局部建模和在较高层应用全局建模，以减轻与全局上下文相关的计算代价，并通过聚合输入令牌来降低较低层的计算代价，在没有全局注意力瓶颈的情况下，较高层可以充分利用计算硬件以最大化推理吞吐量，并优化了语言模型推理过程。

Jun, 2024

块循环变压器

本文提出 Block-Recurrent Transformer 模型，运用 transformer layer 实现序列的循环，以及利用 LSTM-style gates 实现参数可扩展性，改进了常规 transformer layer 对语言模型的瓶颈问题，效果优于 Transformer XL，模型已开源。

Mar, 2022

SLEB: 通过冗余验证与消除优化 Transformer 块的流程化 LLMs

利用 SLEB 方法，通过消除多余的 transformer 块来优化大型语言模型的效率，加速模型的推断过程，同时不损害模型的语言能力。

Feb, 2024

侧化 MLP：扩散的简单脑启发架构

基于大脑侧化的灵感，我们提出了一种简单而有效的架构 L-MLP，它基于多层感知器并在处理数据维度时进行排列、并行处理和合并，通过连接的 MLP 传递。我们发现这种设计优于其他 MLP 变体，在挑战性的扩散任务中与基于 Transformer 的架构相媲美，同时具有高效性。使用文本到图像生成任务进行实验，证明了 L-MLP 的有效性和高效性。

May, 2024

MLP 可以成为优秀的 Transformer 学习器

通过对非必要的 attention layers 进行选择性去除，本文提出了一种简化视觉 transformer 并减少计算负载的新策略，通过熵的考虑，将不具信息量的 attention layers 整合到相应的 MLP 中，实现仅在某些 transformer blocks 中使用 MLP，实验结果显示该方法可以提高 DeiT-B 的吞吐量和内存限制，并在不影响性能的情况下去除 40% 的 attention layer。

Apr, 2024

初始状态下的 Transformer 有效理论

本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析，提出了相应的模型初始化和训练超参数的宽度缩放建议，最终在实际场景中训练了视觉和语言的 Transformer 模型

Apr, 2023