TLM：用于 Transformer 的令牌级屏蔽

EMNLPOct, 2023

TLM: Token-Level Masking for Transformers

Yangjun Wu, Kebin Fang, Dongxiang Zhang, Han Wang, Hao Zhang...

TL;DR使用基于令牌级别的掩蔽训练策略，通过操纵多头注意力中的令牌连接来规范化 Transformer 的自注意力机制，以减少过拟合。该方法在多个自然语言处理任务中得到广泛评估，并证明在性能上优于其他规范化方法。

Abstract

structured dropout approaches, such as attention dropout and DropHead, have been investigated to regularize the multi-head attention mechanism in Transformers. In this paper, we propose a new regularization schem

structured dropout attention mechanism token-level masking self-attention nlp tasks

发现论文，激发创造

多层可学习的多模态任务注意力掩码

通过引入可学习的注意力掩码（LAM）来全局调控注意力图并优先选择序列中的关键标记，该方法在 BERT-like transformer 网络中充分捕捉了标记之间的关联，通过对多层版本的 LAM 的扩展适应了 Transformer 网络各层的不同信息，实验证明该方法在不同数据集上有效地提升模型性能并减少冗余计算，从而对复杂情景理解方面，如电影理解等，取得了显著的进展。

Jun, 2024

将残差和归一化层引入掩码语言模型分析中

通过全面分析 Transformer 架构（多头注意力、残差连接和层归一化）来研究其性能表现，发现中间表示的交互通过注意力执行的作用比先前假定的要小，并提供了新的直观解释。

Sep, 2021

学生不应看到的内容：基于注意力引导的遮蔽图像建模

本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势，即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为，在 MIM 中，图像记号掩蔽与文本中的掩蔽不同，因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务，我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想，其中教师 Transformer 编码器生成关注图，该图我们用于指导学生的掩蔽。因此，我们引入了一种新的掩蔽策略，称为注意力引导掩蔽 (AttMask)，并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认，AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。

Mar, 2022

高效 BERT 预训练的 Token Dropping

提出了一种基于 token dropping 方法的简单有效的预训练加速技术，可以在不影响下游任务性能的前提下，将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token，使模型更专注于重要的 token，然后让最后一层重新生成完整的序列，这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现，计算代价几乎为零。

Mar, 2022

长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型

本研究探索了基于上下文感知框架的神经机器翻译系统，研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势，因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播，在两个公开数据集上验证可以获得较高 BLEU 得分并捕捉语篇现象。

Sep, 2020

神经机器翻译的 Token Drop 机制

通过引入 Token Drop 以及两种自监督目标，提升神经机器翻译的泛化能力和避免过拟合，实验结果表明该方法在中英和英罗马尼亚基准数据集上表现显著优于强 Transformer 基线模型。

Oct, 2020

面具更多，面具更晚：通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练

在预训练过程中追加 [MASK] 可以降低较早层的序列长度，从而在减少计算预算的前提下，提高 RoBERTa 模型的预训练效率，同时在 GLUE 基准测试中表现更好。

Nov, 2022

Scheduled DropHead: Transformer 模型的正则化方法

本研究介绍了 DropHead，这是一种专门为规范化变压器的关键组件 —— 多头注意机制而设计的结构性 dropout 方法。DropHead 在训练期间将整个注意力头头部丢弃，以使得多头注意力模型更为高效地利用注意力头，同时减少了过拟合风险，实验证明了其有效性。

Apr, 2020

使用混合池化网络和 Drop Mask 改进 BERT

本研究提出了一种融合了自注意力和池化网络以编码每个层中的不同上下文特征的 HybridBERT 模型，并提出了一种简单的 DropMask 方法，用于解决预训练和微调之间的不匹配问题。实验表明，HybridBERT 在预训练和迁移学习中均优于 BERT，并且 DropMask 改善了在各种掩码率下 BERT 的下游任务的准确性。

Jul, 2023

缓解神经机器翻译中注意力头不平等

本篇论文研究表明 Transformer 中的注意力头并不相等，为解决这个问题，提出了 HeadMask 方法，在多个语言对中实现了翻译改进。

Sep, 2020