STLM工程报告: dropout
本研究比较了Dropout和Stochastic Delta Rule两种算法在神经网络的参数估计任务上的表现,结果发现SDR相对于Dropout具有更好的性能。
Aug, 2018
本文提出了上下文辍学模块,采用有效的结构设计作为一个简单和可伸缩的样本依赖性辍学模块,可应用于各种模型中,展示了该方法的可伸缩性在大规模数据集上的实验结果显示,该方法在准确性和不确定性估计质量方面优于基线方法。
Mar, 2021
本文中介绍了一种简单的正则化方法R-Drop,该方法强制不同子模型生成的输出分布相互一致,从而提高了深度学习模型的效果。通过在5个深度学习任务(包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类)上的实验证明,R-Drop是普遍有效的,并在Vanilla Transformer模型上实现了最先进的性能。
Jun, 2021
该研究探讨了使用dropout来防止预训练语言模型在有限的数据训练时出现的过拟合问题,提出了一种名为AD-DROP的基于注意力机制的策略来防止高度依赖性的高注意力位置被过度舍弃,通过交替使用模型调优后和AD-DROP来避免过度舍弃高注意力位置,从而避免过度拟合问题。该研究实验结果表明,AD-DROP可以提高模型的预测能力并防止过拟合现象的发生。
Oct, 2022
本文研究表明,与只在训练后期使用dropout的模型不同,在训练开始时使用dropout可减弱梯度方向差异和限制单个批次对模型训练的影响,从而更好地提高模型的泛化精度。
Mar, 2023
本文研究小规模的语言模型中pre-training效果的影响,发现masked language modeling对于1.25M及以上规模的模型具有优化效果,并建立了pre-training perplexity和下游任务(GLUE benchmark)表现的强关联性。同时,研究了downscaling effects,并且观察到FLOPs小于$2.2×10^{15}$时,MLM loss并不随着计算成本(FLOPs)的降低而平滑缩小,增加层数并不总是有助于提高下游表现。
May, 2023
基于对参数高效LoRA的研究,我们重新审视了特定于Transformer的Dropout方法的数学和经验上的等价性和区别,并基于此提出了一个统一的框架,揭示了当涉及到有限可训练参数时它们的新偏好和性能比较。这个框架还允许我们将最有利的方面融合成一个名为HiddenKey的新的Dropout方法,广泛的实验证实HiddenKey在多个模型和任务上具有显著的优势和足够性,将其作为大语言模型高性能和参数高效微调的首选方法。
Feb, 2024
本文探讨了生成模型在其自身生成的输出上进行训练时可能导致的模型崩溃问题,并通过理论和实证研究表明数据的积累可以缓解模型崩溃的问题。
Apr, 2024
模型崩溃是指在使用之前训练的模型生成的合成数据训练新模型时性能下降的现象,本文通过统计模型对各种递归训练情景的影响进行了深入研究,发现当仅使用合成数据进行训练时无法避免模型崩溃,但当混合使用真实数据和合成数据时,我们提供了在合成数据量不超过一定阈值时模型崩溃可以最终避免的估计值,我们的理论结论得到了经验验证的支持。
Apr, 2024
本文研究了Dropout技术在语言模型训练中减轻过拟合的重要作用,特别是变量Dropout率对各个层和残差连接的影响。研究发现,合适的残差连接深度和Dropout的平衡可以显著提高深度神经网络的收敛性和泛化能力。
Oct, 2024