STLM工程报告： dropout

Sep, 2024

STLM Engineering Report: Dropout

Dylan Hillier, Leon Guertler, Bobby Cheng, Cheston Tan

TL;DR本研究探讨了dropout在现代语言模型中的重要性，尤其是在参数小于100M的模型中。研究表明，dropout不仅在小型高质量数据集上能提高样本效率，还能改善大型数据集模型的拟合质量，挑战了传统的机制解释。

Abstract

In this work we explore the relevance of dropout for modern language models, particularly in the context of models on the scale of <100M parameters. We explore it's relevance firstly in the regime of improving th

发现论文，激发创造

Dropout是随机delta规则的特例：更快、更准的深度学习

本研究比较了Dropout和Stochastic Delta Rule两种算法在神经网络的参数估计任务上的表现，结果发现SDR相对于Dropout具有更好的性能。

Aug, 2018

上下文丢弃: 一种高效的样本相关丢弃模块

本文提出了上下文辍学模块，采用有效的结构设计作为一个简单和可伸缩的样本依赖性辍学模块，可应用于各种模型中，展示了该方法的可伸缩性在大规模数据集上的实验结果显示，该方法在准确性和不确定性估计质量方面优于基线方法。

Mar, 2021

R-Drop:神经网络的正则化丢弃

本文中介绍了一种简单的正则化方法R-Drop，该方法强制不同子模型生成的输出分布相互一致，从而提高了深度学习模型的效果。通过在5个深度学习任务（包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类）上的实验证明，R-Drop是普遍有效的，并在Vanilla Transformer模型上实现了最先进的性能。

Jun, 2021

AD-DROP: 基于归因的Dropout技术用于鲁棒性语言模型微调

该研究探讨了使用dropout来防止预训练语言模型在有限的数据训练时出现的过拟合问题，提出了一种名为AD-DROP的基于注意力机制的策略来防止高度依赖性的高注意力位置被过度舍弃，通过交替使用模型调优后和AD-DROP来避免过度舍弃高注意力位置，从而避免过度拟合问题。该研究实验结果表明，AD-DROP可以提高模型的预测能力并防止过拟合现象的发生。

Oct, 2022

Dropout减少过拟合

本文研究表明，与只在训练后期使用dropout的模型不同，在训练开始时使用dropout可减弱梯度方向差异和限制单个批次对模型训练的影响，从而更好地提高模型的泛化精度。

Mar, 2023

语言缩水了：缩减规模后的语言模型行为

本文研究小规模的语言模型中pre-training效果的影响，发现masked language modeling对于1.25M及以上规模的模型具有优化效果，并建立了pre-training perplexity和下游任务(GLUE benchmark)表现的强关联性。同时，研究了downscaling effects，并且观察到FLOPs小于$2.2×10^{15}$时，MLM loss并不随着计算成本(FLOPs)的降低而平滑缩小，增加层数并不总是有助于提高下游表现。

May, 2023

LoRA遇见Dropout: 一个统一框架下的研究

基于对参数高效LoRA的研究，我们重新审视了特定于Transformer的Dropout方法的数学和经验上的等价性和区别，并基于此提出了一个统一的框架，揭示了当涉及到有限可训练参数时它们的新偏好和性能比较。这个框架还允许我们将最有利的方面融合成一个名为HiddenKey的新的Dropout方法，广泛的实验证实HiddenKey在多个模型和任务上具有显著的优势和足够性，将其作为大语言模型高性能和参数高效微调的首选方法。

Feb, 2024

模型崩溃是否不可避免？通过积累真实和合成数据打破递归的诅咒

本文探讨了生成模型在其自身生成的输出上进行训练时可能导致的模型崩溃问题，并通过理论和实证研究表明数据的积累可以缓解模型崩溃的问题。

Apr, 2024

合成数据训练的糟糕程度：语言模型崩溃的统计分析

模型崩溃是指在使用之前训练的模型生成的合成数据训练新模型时性能下降的现象，本文通过统计模型对各种递归训练情景的影响进行了深入研究，发现当仅使用合成数据进行训练时无法避免模型崩溃，但当混合使用真实数据和合成数据时，我们提供了在合成数据量不超过一定阈值时模型崩溃可以最终避免的估计值，我们的理论结论得到了经验验证的支持。

Apr, 2024

探讨Dropout和残差连接对语言模型训练的协同效应

本文研究了Dropout技术在语言模型训练中减轻过拟合的重要作用，特别是变量Dropout率对各个层和残差连接的影响。研究发现，合适的残差连接深度和Dropout的平衡可以显著提高深度神经网络的收敛性和泛化能力。

Oct, 2024