神经语言模型的逐层正则化丢弃

Feb, 2024

Layer-wise Regularized Dropout for Neural Language Models

Shiwen Ni, Min Yang, Ruifeng Xu, Chengming Li, Xiping Hu

TL;DR我们提出了一种特别为基于 Transformer 的语言模型设计的新型 Layer-wise Regularized Dropout (LR-Drop) 方法，通过一些研究使用一致性训练在输出层对 dropout 进行规范化，每个 Transformer 层通过一致性训练策略进行层内规范化，通过在多个数据集上进行大量实验证明，LR-Drop 可以达到卓越的性能，包括最先进的结果。

Abstract

Among the various pre-trained neural language models that are popular today, dropout is already an indispensable regularization technique.

pre-trained neural language models dropout regularization technique layer-wise regularized dropout (lr-drop)transformer-based language models

发现论文，激发创造

R-Drop: 神经网络的正则化丢弃

本文中介绍了一种简单的正则化方法 R-Drop，该方法强制不同子模型生成的输出分布相互一致，从而提高了深度学习模型的效果。通过在 5 个深度学习任务（包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类）上的实验证明，R-Drop 是普遍有效的，并在 Vanilla Transformer 模型上实现了最先进的性能。

Jun, 2021

结构化丢弃降低 Transformer 深度

本文介绍了一种新的结构化 dropout 形式 ——LayerDrop，该形式可在训练过程中实现正则化效果，在推理时允许有效的剪枝。作者通过实验证明了该方法对机器翻译、语言模型、文本摘要、问答和语言理解等基准测试的提升，并提出使用该方法可以得到更高质量的类 BERT 模型。

Sep, 2019

LoRA 遇见 Dropout: 一个统一框架下的研究

基于对参数高效 LoRA 的研究，我们重新审视了特定于 Transformer 的 Dropout 方法的数学和经验上的等价性和区别，并基于此提出了一个统一的框架，揭示了当涉及到有限可训练参数时它们的新偏好和性能比较。这个框架还允许我们将最有利的方面融合成一个名为 HiddenKey 的新的 Dropout 方法，广泛的实验证实 HiddenKey 在多个模型和任务上具有显著的优势和足够性，将其作为大语言模型高性能和参数高效微调的首选方法。

Feb, 2024

自适应正则化的 Dropout 训练

该研究论文通过将 dropout 解释为一种正则化方法，建立了它与 L2 正则化和 AdaGrad 的联系。进一步地，该方法可被应用于半监督学习，旨在提高模型性能，并在文本分类任务中得到了成功应用。

Jul, 2013

循环神经网络正则化

该研究介绍了一种简单的正则化技术，在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合，包括语言建模、语音识别、图像字幕生成和机器翻译等。

Sep, 2014

LSTM 语言模型的正则化和优化

介绍了一种使用 DropConnect 和 NT-ASGD 等方法进行 LSTM 正则化优化的模型，在 Penn Treebank 和 WikiText-2 数据集上取得了最佳的困惑度表现，并探索了神经缓存对模型性能的影响。

Aug, 2017

UniDrop：一种简单而有效的技术，可以在不增加额外成本的情况下提高 Transformer 的性能

该论文介绍如何将不同的 dropout 技术整合到 Transformer 模型的训练中，从而提高其性能。实验结果表明，使用 UniDrop 可以在 IWSLT14 翻译任务中取得约 1.5 BLEU 的改进，并且即使在强大的预训练 RoBERTa 下，文本分类的准确性也有所提高。

Apr, 2021

Scheduled DropHead: Transformer 模型的正则化方法

本研究介绍了 DropHead，这是一种专门为规范化变压器的关键组件 —— 多头注意机制而设计的结构性 dropout 方法。DropHead 在训练期间将整个注意力头头部丢弃，以使得多头注意力模型更为高效地利用注意力头，同时减少了过拟合风险，实验证明了其有效性。

Apr, 2020

利用渐进式层丢弃加速基于 Transformer 的语言模型训练

本文提出了基于渐进式层丢弃的方法，通过模型结构和训练技术的提升效率，加速了基于 Transformer 的语言模型的训练，相较于基准实验可以在每个样本上平均节省 24% 的时间，让预训练速度提高 2.5 倍，同时保持强的知识可迁移性。

Oct, 2020

并非所有的关注点都是您所需要的

本文提出一种名为 AttendOut 的新的 dropout 方法，旨在让基于自注意力的 PrLMs 具备更加鲁棒的任务特定调整能力，从而实现更强的性能表现。通过在多项自然语言处理任务中的验证，证明了该方法的普适性。

Apr, 2021