探讨Dropout和残差连接对语言模型训练的协同效应
通过对比具有不同模型结构的LMs在少量和大量数据上的表现,分析RNNs和IRLMs的性能优劣,展示IRLMs的一些优点与缺陷,并提出了一种基于long-context units的LM模型,通过该模型在Microsoft Research Sentence Completion数据上最高可以达到60.8%的性能。
Jan, 2013
通过采用敌对概念生成的dropout mask来改进循环神经网络的性能,实现了对于时序MNIST任务、半监督文本分类任务和语言建模任务中RNNs的dropout技术的有效性提高。
Apr, 2019
本文研究了dropout正则化方法的两种作用:修改预期训练目标的明显作用和训练更新的随机性所导致的额外的隐含作用。通过对实验的控制和分析,提出了可以替换dropout的简化分析正则化器。
Feb, 2020
本文中介绍了一种简单的正则化方法R-Drop,该方法强制不同子模型生成的输出分布相互一致,从而提高了深度学习模型的效果。通过在5个深度学习任务(包括神经机器翻译、摘要概括、语言理解、语言建模和图像分类)上的实验证明,R-Drop是普遍有效的,并在Vanilla Transformer模型上实现了最先进的性能。
Jun, 2021
该研究探讨了使用dropout来防止预训练语言模型在有限的数据训练时出现的过拟合问题,提出了一种名为AD-DROP的基于注意力机制的策略来防止高度依赖性的高注意力位置被过度舍弃,通过交替使用模型调优后和AD-DROP来避免过度舍弃高注意力位置,从而避免过度拟合问题。该研究实验结果表明,AD-DROP可以提高模型的预测能力并防止过拟合现象的发生。
Oct, 2022
本文研究表明,与只在训练后期使用dropout的模型不同,在训练开始时使用dropout可减弱梯度方向差异和限制单个批次对模型训练的影响,从而更好地提高模型的泛化精度。
Mar, 2023
本文研究小规模的语言模型中pre-training效果的影响,发现masked language modeling对于1.25M及以上规模的模型具有优化效果,并建立了pre-training perplexity和下游任务(GLUE benchmark)表现的强关联性。同时,研究了downscaling effects,并且观察到FLOPs小于$2.2×10^{15}$时,MLM loss并不随着计算成本(FLOPs)的降低而平滑缩小,增加层数并不总是有助于提高下游表现。
May, 2023
我们提出了一种特别为基于Transformer的语言模型设计的新型Layer-wise Regularized Dropout (LR-Drop)方法,通过一些研究使用一致性训练在输出层对dropout进行规范化,每个Transformer层通过一致性训练策略进行层内规范化,通过在多个数据集上进行大量实验证明,LR-Drop可以达到卓越的性能,包括最先进的结果。
Feb, 2024
传统的预训练-微调策略已被视为现代语言建模中的转移学习策略,但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响,并利用研究结果提出了一种新颖的用于改善模型正则化和下游泛化性能的 dropout 方法,名为guided dropout。通过实证评估表明,相比于标准基线,在数据稀缺的情况下,我们的正则化方法始终能够得到更好的性能。
Jun, 2024
本研究探讨了dropout在现代语言模型中的重要性,尤其是在参数小于100M的模型中。研究表明,dropout不仅在小型高质量数据集上能提高样本效率,还能改善大型数据集模型的拟合质量,挑战了传统的机制解释。
Sep, 2024