TLM:用于 Transformer 的令牌级屏蔽
通过引入可学习的注意力掩码(LAM)来全局调控注意力图并优先选择序列中的关键标记,该方法在 BERT-like transformer 网络中充分捕捉了标记之间的关联,通过对多层版本的 LAM 的扩展适应了 Transformer 网络各层的不同信息,实验证明该方法在不同数据集上有效地提升模型性能并减少冗余计算,从而对复杂情景理解方面,如电影理解等,取得了显著的进展。
Jun, 2024
通过全面分析 Transformer 架构(多头注意力、残差连接和层归一化)来研究其性能表现,发现中间表示的交互通过注意力执行的作用比先前假定的要小,并提供了新的直观解释。
Sep, 2021
本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势,即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为,在 MIM 中,图像记号掩蔽与文本中的掩蔽不同,因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务,我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想,其中教师 Transformer 编码器生成关注图,该图我们用于指导学生的掩蔽。因此,我们引入了一种新的掩蔽策略,称为注意力引导掩蔽 (AttMask),并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认,AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。
Mar, 2022
提出了一种基于 token dropping 方法的简单有效的预训练加速技术,可以在不影响下游任务性能的前提下,将 BERT 的预训练成本减少 25%。该方法通过在中间层开始丢弃不重要的 token,使模型更专注于重要的 token,然后让最后一层重新生成完整的序列,这可以通过利用 Masked Language Modeling 的已建成的 loss 函数来实现,计算代价几乎为零。
Mar, 2022
本研究探索了基于上下文感知框架的神经机器翻译系统,研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势,因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播,在两个公开数据集上验证可以获得较高 BLEU 得分并捕捉语篇现象。
Sep, 2020
通过引入 Token Drop 以及两种自监督目标,提升神经机器翻译的泛化能力和避免过拟合,实验结果表明该方法在中英和英罗马尼亚基准数据集上表现显著优于强 Transformer 基线模型。
Oct, 2020
在预训练过程中追加 [MASK] 可以降低较早层的序列长度,从而在减少计算预算的前提下,提高 RoBERTa 模型的预训练效率,同时在 GLUE 基准测试中表现更好。
Nov, 2022
本研究介绍了 DropHead,这是一种专门为规范化变压器的关键组件 —— 多头注意机制而设计的结构性 dropout 方法。DropHead 在训练期间将整个注意力头头部丢弃,以使得多头注意力模型更为高效地利用注意力头,同时减少了过拟合风险,实验证明了其有效性。
Apr, 2020
本研究提出了一种融合了自注意力和池化网络以编码每个层中的不同上下文特征的 HybridBERT 模型,并提出了一种简单的 DropMask 方法,用于解决预训练和微调之间的不匹配问题。实验表明,HybridBERT 在预训练和迁移学习中均优于 BERT,并且 DropMask 改善了在各种掩码率下 BERT 的下游任务的准确性。
Jul, 2023