关于自监督 Transformer 中的分离归一化

NIPSSep, 2023

关于自监督 Transformer 中的分离归一化

On Separate Normalization in Self-supervised Transformers

Xiaohui Chen, Yinkai Wang, Yuanqi Du, Soha Hassoun, Li-Ping Liu

TL;DR本研究提出了一种简单修改的方法，该方法利用了单独的标准化层对标记和 [CLS] 符号进行处理，以更好地捕捉它们的独特特征并增强下游任务的性能。实验证明，通过使用单独的标准化层，[CLS] 嵌入可以更好地编码全局上下文信息，并在其非均匀空间中分布更加均匀。将传统的标准化层替换为两个单独的层后，我们观察到图像、自然语言和图形领域的平均性能提高了 2.7%。

Abstract

self-supervised training methods for transformers have demonstrated remarkable performance across various domains. Previous transformer-based models, such as masked autoencoders (MAE), typically utilize a single

self-supervised training methods transformers normalization layers distinct characteristics downstream task performance

发现论文，激发创造

将残差和归一化层引入掩码语言模型分析中

通过全面分析 Transformer 架构（多头注意力、残差连接和层归一化）来研究其性能表现，发现中间表示的交互通过注意力执行的作用比先前假定的要小，并提供了新的直观解释。

Sep, 2021

TLM：用于 Transformer 的令牌级屏蔽

使用基于令牌级别的掩蔽训练策略，通过操纵多头注意力中的令牌连接来规范化 Transformer 的自注意力机制，以减少过拟合。该方法在多个自然语言处理任务中得到广泛评估，并证明在性能上优于其他规范化方法。

Oct, 2023

混合自注意力网络用于机器翻译

本研究中，我们提出了一种名为 HySAN 的新型自注意力机制，它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义，并引入挤压门来融合不同类型的自注意力网络，在三个机器翻译任务上实现了优于 Transform 的显著基线，并实现了超越最先进的 NMT 系统的卓越结果。

Nov, 2018

关注掩码和层归一化在 Transformer 中的作用

通过分析自我注意力机制和层标准化对秩崩溃的影响，本文发现层标准化在自我注意力的秩崩溃中起到了关键作用，为自我注意力提供了更富表现力、多功能的非线性动力系统。

May, 2024

基于 Transformer 的端到端语音识别语义掩码

提出了一种基于语义掩蔽的正则化方法，使用注意力机制的编解码器模型，以及 transformer-based 模型，以提升 E2E 模型的训练效果。通过实验验证，在 Librispeech 960h 和 TedLium2 数据集上取得了 E2E 模型领域的最新性能。

Dec, 2019

Transformer 跟踪的广义关系建模

本文提出了一种基于适应性标记划分的关系建模方法，通过与模板标记的交互来改善现有的单流跟踪器中可能出现的目标 - 背景混淆问题，并引入注意掩蔽策略和 Gumbel-Softmax 技术，以促进标记划分模块的并行计算和端到端的学习，在六个具有挑战性的基准测试中实现了最先进的性能。

Mar, 2023

针对鉴别性语言模型预训练的自进化学习

本文提出了 Self-Evolution 学习方法，利用自适应 Token 掩蔽和标签平滑正则化技术，全面且明智地利用数据中的知识，通过在 10 项任务中进行实验，证明了该方法在各种 PLMs 上带来了相应且显著的提升，可以提高语言知识的学习和推广。

May, 2023

借助误差暴露和一致性规范化提升非自回归机器翻译

通过错误曝光和一致性正则化的训练方法，研究中提出了解决条件掩码语言模型 (CMLM) 在训练和推断之间数据分布差异的问题，并在五个翻译基准上实验，取得了相对基线模型平均 0.68 和 0.40 BLEU 得分的改进，同时我们的 CMLMC-EECR 在与 Transformer 相比的翻译质量上达到了最佳表现，实验结果验证了我们方法的有效性。

Feb, 2024

面具更多，面具更晚：通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练

在预训练过程中追加 [MASK] 可以降低较早层的序列长度，从而在减少计算预算的前提下，提高 RoBERTa 模型的预训练效率，同时在 GLUE 基准测试中表现更好。

Nov, 2022

长短时 Masking Transformer: 一种简单而有效的文档级神经机器翻译基线模型

本研究探索了基于上下文感知框架的神经机器翻译系统，研究发现标准 Transformer 自回归属性可以同时带来一致性和误差积累的优势和劣势，因此提出了一种简单的基于长短时记忆的自注意力机制用于捕捉长距离依赖并减少误差传播，在两个公开数据集上验证可以获得较高 BLEU 得分并捕捉语篇现象。

Sep, 2020