通过分析自我注意力机制和层标准化对秩崩溃的影响,本文发现层标准化在自我注意力的秩崩溃中起到了关键作用,为自我注意力提供了更富表现力、多功能的非线性动力系统。
May, 2024
一篇技术说明旨在提供对深度神经网络中常见的 LayerNorm 函数更深入的直观理解,通过开发新的数学表达和几何直觉,使其净效应更透明,强调当 LayerNorm 作用于 N 维向量空间时,所有 LayerNorm 的结果位于 (N-1) 维超平面与 N 维超椭球体内部的交集中,该交集是 (N-1) 维超椭球体的内部,而典型输入被映射到其表面附近。我们通过对一个简单构建的矩阵进行特征值分解来找到这个 (N-1) 维超椭球体的主轴方向和长度。
本文使用范数分析方法,证明注意力机制只是决定注意力输出的两个因素之一,通过对 BERT 和基于 Transformer 的神经机器翻译系统的范数分析,发现 BERT 没有很好地关注特殊的标记符号,并从 Transformer 的注意力机制中提取出合理的单词对齐,为理解 Transformers 的内部运作提供了洞见。
Apr, 2020
本文提出了一种新的线性变压器模型,称为 transNormer,以解决现有线性变压器的性能问题,通过稳定梯度和改善注意力的方式,在文本分类和语言建模任务以及 Long-Range Arena 基准测试中表现出更优异的性能,同时更加高效。
Oct, 2022
通过 PreNorm、ScaleNorm 和 FixNorm 三种方法的应用,能够加速模型训练,使其更加稳定,从而在五种低资源的翻译对中得到了 1.1 BLEU 的提升并在 IWSLT'15 上获得 32.8 BLEU 的表现。
Oct, 2019
改进和优化 BERT 预训练模型以实现参数高效微调,通过分析不同组件,发现经过微调后,输出层规范化(LayerNorm)发生的变化最为显著。通过仅微调 LayerNorm,可以达到与完全微调和其他参数高效微调方法相当甚至更好的性能,并用 Fisher 信息确定了 LayerNorm 的关键子集,在 GLUE 基准测试中解决了许多 NLP 任务。
Mar, 2024
本研究主要探讨了 LayerNorm 技术的有效性以及如何优化其性能,提出了一种新的规范化方法 AdaNorm,其实验结果比传统 LayerNorm 方法更好。
Nov, 2019
提出 transformers 的注意力子层是 Hopfield 注意力理论中的 log-sum-exp 项的梯度上升步骤,这导致了点的并行扩展,而又被层标准化所抵消的基于指数族的对比学习的概率解释
Apr, 2022
本文探讨了层规范化 (LayerNorm) 对零 - shot 翻译 (ZST) 的影响。通过在 OPUS、IWSLT 和 Europarl 数据集上的 54 个 ZST 方向的实验,我们证明了在残差连接后 (PostNorm) 的原始 Transformer 设置通常比默认的层输入规范化 (PreNorm) 在 BLEU 值上提高了 12.3 点,同时研究了 PreNorm 和 PostNorm 之间的差异,强调了在 ZST 中需要对 LayerNorm 的设置进行仔细考虑。
May, 2023
通过全面分析 Transformer 架构(多头注意力、残差连接和层归一化)来研究其性能表现,发现中间表示的交互通过注意力执行的作用比先前假定的要小,并提供了新的直观解释。
Sep, 2021