Mixout:一种有效的正则化方法,用于微调大规模预训练语言模型
基于注意力引导的权重混合和双层优化框架,我们提出了一种用于预训练语言模型的微调方法,以解决在低资源数据集上微调模型时的不稳定性和过拟合问题,在广泛的实验中验证了该方法的有效性和优越性。
Mar, 2024
本研究探讨了神经机器翻译的监督域自适应技术,针对现有模型在大型非领域数据集训练后,如何适应小型领域数据集所出现的过拟合问题。在整个过程中,正则化技术,如 dropout 和 L2 正则化与非领域先验之间的关系得到了深入研究。此外,文章提出了一种新型的正则化技术 ——tuneout,即启发式 dropout。我们将这些技术单独或结合应用于神经机器翻译,以英语 -> 德语、英语 -> 俄语的 IWSLT 数据集为例取得了改进。此外,我们还研究了 NMT 领域中所需的领域内训练数据量,并发现培训数据与 BLEU 分数之间存在对数关系。
Jul, 2017
传统的预训练 - 微调策略已被视为现代语言建模中的转移学习策略,但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响,并利用研究结果提出了一种新颖的用于改善模型正则化和下游泛化性能的 dropout 方法,名为 guided dropout。通过实证评估表明,相比于标准基线,在数据稀缺的情况下,我们的正则化方法始终能够得到更好的性能。
Jun, 2024
利用 Mixup 作为标准交叉熵损失的额外正则化器,可以提高其精确度并在各种协变量转移和超出分布检测实验中显著提高其预测不确定性的质量。通过对视觉数据集 (ImageNet & CIFAR-10/100) 的深入分析和实验来展示我们的方法(RegMixup)的功效,并与一系列最新方法进行比较,以实现可靠的不确定性估计。
Jun, 2022
使用回归模型自动识别高性能的数据混合,通过联合所有领域一起考虑以捕捉复杂性,RegMix 方法超过人工选择,并且仅使用 10%的计算预算实现与 DoReMi 相比匹配或更好的结果。
Jul, 2024
本论文研究数据增广技术 Mixup 的理论基础,指出 Mixup 可被解释为标准经验风险最小化估计器,通过数据转换和随机扰动来实现。该方法在测试时能够提高分类器性能,同时还获得了自校准和有效的正则化效果,以防止过度拟合和过度自信的预测。
Jun, 2020
本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架,用于更加有效地对预训练语言模型进行微调,避免过拟合和知识遗忘,通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。
Nov, 2019
本文提出了一种经过正则化的 fine-tuning 方法,通过在数据流形内插值产生假样本,加强 In-distribution 采样的平滑性;同时通过在采样流形外的假样本输出平均分布的方式来提高 OOD 数据的可靠性,实验证明了该方法的有效性。
Oct, 2020
本文提出了一种名为 LNSR 的 fine-tuning 框架,通过注入高斯噪声或浸入式噪声,对 fine-tuned 模型的隐藏表示进行规范化,以解决预训练语言模型的过拟合问题,并证明其在 question answering task 方面具有优越性。
Jun, 2022
我们设计了一种名为正则化掩码调优的新型调优方法,在下游任务中通过学习的选择来屏蔽网络参数,从而将前期训练阶段中隐藏的有用知识重新引入到视觉语言模型中,通过实验证明了这种方法在不同数据集上的优越性能。
Jul, 2023