结构化丢弃降低 Transformer 深度

Sep, 2019

Reducing Transformer Depth on Demand with Structured Dropout

Angela Fan, Edouard Grave, Armand Joulin

TL;DR本文介绍了一种新的结构化 dropout 形式 ——LayerDrop，该形式可在训练过程中实现正则化效果，在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升，并提出使用该方法可以得到更高质量的类 BERT 模型。

Abstract

overparameterized transformer networks have obtained state of the art results in various natural language processing tasks, such as machine translation, language modeling, and question answering. These models con

overparameterized transformer networks layerdrop efficient pruning machine translation bert-like models

发现论文，激发创造

重新审视结构化 Dropout

本文研究使用多个有构造性的 Dropout 方法在多个现代神经网络上进行自然语言处理和计算机视觉任务。我们提出了一种名为 ProbDropBlock 的方法，该方法可以提高模型的性能，并且已经在 RoBERTa 和 ImageNet 上得到验证。

Oct, 2022

UniDrop：一种简单而有效的技术，可以在不增加额外成本的情况下提高 Transformer 的性能

该论文介绍如何将不同的 dropout 技术整合到 Transformer 模型的训练中，从而提高其性能。实验结果表明，使用 UniDrop 可以在 IWSLT14 翻译任务中取得约 1.5 BLEU 的改进，并且即使在强大的预训练 RoBERTa 下，文本分类的准确性也有所提高。

Apr, 2021

神经语言模型的逐层正则化丢弃

我们提出了一种特别为基于 Transformer 的语言模型设计的新型 Layer-wise Regularized Dropout (LR-Drop) 方法，通过一些研究使用一致性训练在输出层对 dropout 进行规范化，每个 Transformer 层通过一致性训练策略进行层内规范化，通过在多个数据集上进行大量实验证明，LR-Drop 可以达到卓越的性能，包括最先进的结果。

Feb, 2024

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

深度变换器与潜在深度

本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能，用于训练一种适用于多语言机器翻译的共享 Transformer 网络，缓解梯度消失问题，从而使得深度 Transformer 网络（例如 100 层）稳定训练，并在机器翻译和语言建模任务中实现了更好的性能。

Sep, 2020

DropDim：Transformer 网络的一种正则化方法

介绍了 DropDim，一种用于规范 Transformer 中关键组件 —— 自我注意力机制的结构化丢弃方法。与通用的随机丢弃方法不同，DropDim 会丢弃嵌入维度的一部分，从而避免了嵌入维度间的过多协同适应。实验证明，DropDim 能够有效地提高模型性能，在防止过拟合和与其他规范方法互补方面表现出色。

Apr, 2023

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Oct, 2020

R-Drop: 神经网络的正则化丢弃

本文中介绍了一种简单的正则化方法 R-Drop，该方法强制不同子模型生成的输出分布相互一致，从而提高了深度学习模型的效果。通过在 5 个深度学习任务（包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类）上的实验证明，R-Drop 是普遍有效的，并在 Vanilla Transformer 模型上实现了最先进的性能。

Jun, 2021

Dropout 作为一种结构收缩先验

研究了深度神经网络的 dropout 正则化并提出了一种新的框架来理解深度神经网络中的加性噪声。研究了多种不同噪声并导出了其等价性，进而使 dropout 的 Monte Carlo 训练目标逼近了边缘 MAP 估计。进一步基于这些洞见提出了一种新的收缩框架用于深度神经网络，并对两种改进后的推理策略在回归基准测试中进行了调查。

Oct, 2018

关于在序列到序列模型中稀疏编码器输出的研究

利用 L0DROP 层来实现精简 Transformer 中 Encoder 输出的机制，可以在不降低结果质量的情况下减少 40-70% 的输出，提高编码速度。

Apr, 2020