关于 LayerNorm 在 Transformer 注意力机制中表现力的作用

ACLMay, 2023

关于 LayerNorm 在 Transformer 注意力机制中表现力的作用

On the Expressivity Role of LayerNorm in Transformers' Attention

Shaked Brody, Uri Alon, Eran Yahav

TL;DR本文表明，LayerNorm 是 Transformer 模型中 multi-head attention 层表现力的重要组成部分，其投影和缩放两个步骤对于注意力机制的作用至关重要。

Abstract

Layer Normalization (layernorm) is an inherent component in all transformer-based models. In this paper, we show that layernorm is crucial

layernorm transformer multi-head attention projection scaling

发现论文，激发创造

关注掩码和层归一化在 Transformer 中的作用

通过分析自我注意力机制和层标准化对秩崩溃的影响，本文发现层标准化在自我注意力的秩崩溃中起到了关键作用，为自我注意力提供了更富表现力、多功能的非线性动力系统。

May, 2024

层归一化的几何和动力学

一篇技术说明旨在提供对深度神经网络中常见的 LayerNorm 函数更深入的直观理解，通过开发新的数学表达和几何直觉，使其净效应更透明，强调当 LayerNorm 作用于 N 维向量空间时，所有 LayerNorm 的结果位于 (N-1) 维超平面与 N 维超椭球体内部的交集中，该交集是 (N-1) 维超椭球体的内部，而典型输入被映射到其表面附近。我们通过对一个简单构建的矩阵进行特征值分解来找到这个 (N-1) 维超椭球体的主轴方向和长度。

May, 2024

注意力不仅仅是权重：用向量范数分析 Transformer

本文使用范数分析方法，证明注意力机制只是决定注意力输出的两个因素之一，通过对 BERT 和基于 Transformer 的神经机器翻译系统的范数分析，发现 BERT 没有很好地关注特殊的标记符号，并从 Transformer 的注意力机制中提取出合理的单词对齐，为理解 Transformers 的内部运作提供了洞见。

Apr, 2020

线性变换中的魔鬼

本文提出了一种新的线性变压器模型，称为 transNormer，以解决现有线性变压器的性能问题，通过稳定梯度和改善注意力的方式，在文本分类和语言建模任务以及 Long-Range Arena 基准测试中表现出更优异的性能，同时更加高效。

Oct, 2022

不含泪的 Transformer: 改进自注意力的规范化

通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用，能够加速模型训练，使其更加稳定，从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。

Oct, 2019

LayerNorm: 参数高效微调中的关键组件

改进和优化 BERT 预训练模型以实现参数高效微调，通过分析不同组件，发现经过微调后，输出层规范化（LayerNorm）发生的变化最为显著。通过仅微调 LayerNorm，可以达到与完全微调和其他参数高效微调方法相当甚至更好的性能，并用 Fisher 信息确定了 LayerNorm 的关键子集，在 GLUE 基准测试中解决了许多 NLP 任务。

Mar, 2024

理解和改善层归一化

本研究主要探讨了 LayerNorm 技术的有效性以及如何优化其性能，提出了一种新的规范化方法 AdaNorm，其实验结果比传统 LayerNorm 方法更好。

Nov, 2019

Transformer 模型的概率解释

提出 transformers 的注意力子层是 Hopfield 注意力理论中的 log-sum-exp 项的梯度上升步骤，这导致了点的并行扩展，而又被层标准化所抵消的基于指数族的对比学习的概率解释

Apr, 2022

层归一化对零样本神经机器翻译的影响探究

本文探讨了层规范化 (LayerNorm) 对零 - shot 翻译 (ZST) 的影响。通过在 OPUS、IWSLT 和 Europarl 数据集上的 54 个 ZST 方向的实验，我们证明了在残差连接后 (PostNorm) 的原始 Transformer 设置通常比默认的层输入规范化 (PreNorm) 在 BLEU 值上提高了 12.3 点，同时研究了 PreNorm 和 PostNorm 之间的差异，强调了在 ZST 中需要对 LayerNorm 的设置进行仔细考虑。

May, 2023

将残差和归一化层引入掩码语言模型分析中

通过全面分析 Transformer 架构（多头注意力、残差连接和层归一化）来研究其性能表现，发现中间表示的交互通过注意力执行的作用比先前假定的要小，并提供了新的直观解释。

Sep, 2021