探讨Dropout和残差连接对语言模型训练的协同效应

Oct, 2024

探讨Dropout和残差连接对语言模型训练的协同效应

Investigating the Synergistic Effects of Dropout and Residual Connections on Language Model Training

Qingyang Li, Weimao Ke

TL;DR本文研究了Dropout技术在语言模型训练中减轻过拟合的重要作用，特别是变量Dropout率对各个层和残差连接的影响。研究发现，合适的残差连接深度和Dropout的平衡可以显著提高深度神经网络的收敛性和泛化能力。

Abstract

This paper examines the pivotal role of Dropout techniques in mitigating Overfitting in Language Model Training. It conducts a comprehensi

发现论文，激发创造

神经语言模型的正则化和非线性：何时需要？

通过对比具有不同模型结构的LMs在少量和大量数据上的表现，分析RNNs和IRLMs的性能优劣，展示IRLMs的一些优点与缺陷，并提出了一种基于long-context units的LM模型，通过该模型在Microsoft Research Sentence Completion数据上最高可以达到60.8%的性能。

Jan, 2013

适用于循环神经网络的对抗性dropout

通过采用敌对概念生成的dropout mask来改进循环神经网络的性能，实现了对于时序MNIST任务、半监督文本分类任务和语言建模任务中RNNs的dropout技术的有效性提高。

Apr, 2019

Dropout的隐式和显式正则化效应

本文研究了dropout正则化方法的两种作用：修改预期训练目标的明显作用和训练更新的随机性所导致的额外的隐含作用。通过对实验的控制和分析，提出了可以替换dropout的简化分析正则化器。

Feb, 2020

R-Drop:神经网络的正则化丢弃

本文中介绍了一种简单的正则化方法R-Drop，该方法强制不同子模型生成的输出分布相互一致，从而提高了深度学习模型的效果。通过在5个深度学习任务（包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类）上的实验证明，R-Drop是普遍有效的，并在Vanilla Transformer模型上实现了最先进的性能。

Jun, 2021

AD-DROP: 基于归因的Dropout技术用于鲁棒性语言模型微调

该研究探讨了使用dropout来防止预训练语言模型在有限的数据训练时出现的过拟合问题，提出了一种名为AD-DROP的基于注意力机制的策略来防止高度依赖性的高注意力位置被过度舍弃，通过交替使用模型调优后和AD-DROP来避免过度舍弃高注意力位置，从而避免过度拟合问题。该研究实验结果表明，AD-DROP可以提高模型的预测能力并防止过拟合现象的发生。

Oct, 2022

Dropout减少过拟合

本文研究表明，与只在训练后期使用dropout的模型不同，在训练开始时使用dropout可减弱梯度方向差异和限制单个批次对模型训练的影响，从而更好地提高模型的泛化精度。

Mar, 2023

语言缩水了：缩减规模后的语言模型行为

本文研究小规模的语言模型中pre-training效果的影响，发现masked language modeling对于1.25M及以上规模的模型具有优化效果，并建立了pre-training perplexity和下游任务(GLUE benchmark)表现的强关联性。同时，研究了downscaling effects，并且观察到FLOPs小于$2.2×10^{15}$时，MLM loss并不随着计算成本(FLOPs)的降低而平滑缩小，增加层数并不总是有助于提高下游表现。

May, 2023

神经语言模型的逐层正则化丢弃

我们提出了一种特别为基于Transformer的语言模型设计的新型Layer-wise Regularized Dropout (LR-Drop)方法，通过一些研究使用一致性训练在输出层对dropout进行规范化，每个Transformer层通过一致性训练策略进行层内规范化，通过在多个数据集上进行大量实验证明，LR-Drop可以达到卓越的性能，包括最先进的结果。

Feb, 2024

信息引导的正则化用于微调语言模型

传统的预训练-微调策略已被视为现代语言建模中的转移学习策略，但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响，并利用研究结果提出了一种新颖的用于改善模型正则化和下游泛化性能的 dropout 方法，名为guided dropout。通过实证评估表明，相比于标准基线，在数据稀缺的情况下，我们的正则化方法始终能够得到更好的性能。

Jun, 2024

STLM工程报告： dropout

本研究探讨了dropout在现代语言模型中的重要性，尤其是在参数小于100M的模型中。研究表明，dropout不仅在小型高质量数据集上能提高样本效率，还能改善大型数据集模型的拟合质量，挑战了传统的机制解释。

Sep, 2024