将残差和归一化层引入掩码语言模型分析中

EMNLPSep, 2021

将残差和归一化层引入掩码语言模型分析中

Incorporating Residual and Normalization Layers into Analysis of Masked Language Models

Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui

TL;DR通过全面分析 Transformer 架构（多头注意力、残差连接和层归一化）来研究其性能表现，发现中间表示的交互通过注意力执行的作用比先前假定的要小，并提供了新的直观解释。

Abstract

transformer architecture has become ubiquitous in the natural language processing field. To interpret the Transformer-based models, their attention patterns have been extensively analyzed. However, the transformer archi

transformer architecture multi-head attention residual connection layer normalization masked language models

发现论文，激发创造

前馈模块控制遮蔽语言模型中的语境化

通过对 Transformer 模型内部结构的分析，探讨了每个组件对文本语境化的作用，实验发现每个组件都对不同程度的语境化产生了影响，并且有些组件的作用相互抵消，更新了我们关于 Transformer 层各个组件作用的常见认识。

Feb, 2023

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

TLM：用于 Transformer 的令牌级屏蔽

使用基于令牌级别的掩蔽训练策略，通过操纵多头注意力中的令牌连接来规范化 Transformer 的自注意力机制，以减少过拟合。该方法在多个自然语言处理任务中得到广泛评估，并证明在性能上优于其他规范化方法。

Oct, 2023

RealFormer: 喜欢残差注意力的 Transformer

提出了一种名为 RealFormer 的技术，可以创建残差注意力层的 Transformer 网络，并在许多任务上显著优于标准 Transformer 及其变体。该技术不仅稳定了训练，而且还可以导致具有更少注意力的模型，并提供了预训练检查点。

Dec, 2020

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019

残差卷积演化关注机制

本文提出一种基于演化注意力的新型通用机制，通过残差连接实现前一层的注意力指导后一层，并采用卷积层来建模对注意力图的演化过程，在多个任务上显著提高了性能。

Feb, 2021

仅关注注意力的 Transformer 模型及使用注意力头实现的 MLP

证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现，只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分（线性变换和激活函数），并且可以在其权重矩阵中编码任意的掩码模式，误差可以任意小。

Sep, 2023

测量 Transformer 中上下文信息的混合

该论文提出了一种名为 ALTI 的方法，通过考虑注意力模块（multi-head attention, residual connection and layer normalization）以及定义一种新的度量方法来测量各层之间的令牌交互，从而提供更准确的输入归因分数以解释模型预测，在实验中显示 ALTI 比基于梯度方法更好地提供了模型预测的解释，提高了模型的鲁棒性。

Mar, 2022

Transformer 模型中的注意力的多尺度可视化

通过使用注意力机制，Transformer 模型不仅在性能上有所提升，同时还可通过可视化工具展示模型如何赋权于不同的输入元素，从而实现模型的解释和解读，本文提出了一种开源的基于多尺度可视化注意力机制的工具，并在 BERT 和 OpenAI GPT-2 上进行了演示，包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。

Jun, 2019

关注掩码和层归一化在 Transformer 中的作用

通过分析自我注意力机制和层标准化对秩崩溃的影响，本文发现层标准化在自我注意力的秩崩溃中起到了关键作用，为自我注意力提供了更富表现力、多功能的非线性动力系统。

May, 2024