简化线性注意力和渐进重参数化批归一化的高效 Transformer (SLAB)

ICMLMay, 2024

简化线性注意力和渐进重参数化批归一化的高效 Transformer (SLAB)

SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

Jialong Guo, Xinghao Chen, Yehui Tang, Yunhe Wang

TL;DR本研究针对 transformer 中的计算瓶颈模块，即正则化层和注意力模块，提出了一种名为 PRepBN 的新方法，用于逐步替换训练中的 LayerNorm，并提出了一种简化的线性注意力模块（SLA）以实现强大的性能。实验证明，该方法在图像分类和目标检测任务上的效果显著，并在语言建模任务中获得了可比较的性能和更低的延迟。

Abstract

transformers have become foundational architectures for both natural language and computer vision tasks. However, the high computational cost makes it quite challenging to deploy on resource-constraint devices. This paper investigates the →

transformers computational bottleneck layernorm batchnorm simplified linear attention

发现论文，激发创造

PowerNorm: 在 Transformer 中重新考虑批量归一化

本文研究了神经网络（NN）和自然语言处理 (NLP) 中的标准归一化方法 —— 层归一化 (LN) 和在计算机视觉中广泛应用的批归一化（BN）之间的区别，分析了使用 BN 进行 NLP 任务时性能下降的原因，提出了一种通过放宽 BN 中的零均值正则化，引入运行时二次平均值稳定批次间波动并在前向传递中引入运行时高斯噪声的新型 Lp 归一化方法 (PN)，比 LN 和 BN 都表现更好。

Mar, 2020

FusionFormer：在 Transformer 中融合操作以实现高效流式语音识别

通过将层标准化技术替换为批标准化技术并且对 Conformer 架构的激活函数进行简化和替换（用 ReLU），我们提出了一个名为 FusionFormer 的模型，它的推理速度比标准的 Conformer 模型快约 10%，而且效果相当。

Oct, 2022

加速和稳定 Transformer 的统一规范化

提出一种名为统一归一化（UN）的新型网络层归一化方法，通过采用适合的波动整理策略校准激活和梯度统计数据，以避免过多迭代波动和极端异常值的问题，并应用自适应离群值筛选策略以避免训练崩溃。通过在语言和视觉任务上的广泛实验，验证了 UN 作为 LN 的高效替代方法，可以加快推理速度约 31％，减少内存约 18％。

Aug, 2022

TransNormer 模型参数适配至 1750 亿

我们提出了 TransNormerLLM，这是第一个基于线性注意力的大型语言模型（LLM），在准确性和效率方面均超过了传统的基于 softmax 注意力的模型。

Jul, 2023

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022

稀疏注意力与线性单元

本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型，该模型采用 ReLU 激活函数来代替 softmax 函数，通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明，ReLA 模型在机器翻译任务中表现良好，且实现效率高，同时能够实现高稀疏率和头部多样性。

Apr, 2021

批归一化在自然语言处理中 Transformer 失败的原因

通过量化训练与推理之间的不一致性，证明了 BN 在 NLP 中表现较差的主要原因，并提出了一种正则化方法 RBN，可以显著改善 BN 在 Transformer 模型上的性能。

Oct, 2022

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

关于层标准化调整在视觉 Transformer 连续学习中的有效性

通过回顾和扩展简单的迁移学习思想：学习任务特定的归一化层，我们在维持竞争性性能的同时降低了计算成本，在 ImageNet-R 和 CIFAR-100 实验中，我们的方法在计算上更加经济且结果要么优于现有技术水平，要么与其相媲美。

Aug, 2023

不含泪的 Transformer: 改进自注意力的规范化

通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用，能够加速模型训练，使其更加稳定，从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。

Oct, 2019