Mixout：一种有效的正则化方法，用于微调大规模预训练语言模型

ICLRSep, 2019

Mixout：一种有效的正则化方法，用于微调大规模预训练语言模型

Mixout: Effective Regularization to Finetune Large-scale Pretrained Language Models

Cheolhyoung Lee, Kyunghyun Cho, Wanmo Kang

TL;DR本文提出了一种新的正则化技术，名为 “mixout”，并在预训练语言模型上的下游任务中展示了其稳定性和准确性的提高。

Abstract

In natural language processing, it has been observed recently that generalization could be greatly improved by finetuning a large-scale language model pretrained on a large unlabeled corpus. Despite its recent su

natural language processing finetuning pretrained language model mixout glue

发现论文，激发创造

预训练语言模型在低资源文本上的泛化和稳定调优

基于注意力引导的权重混合和双层优化框架，我们提出了一种用于预训练语言模型的微调方法，以解决在低资源数据集上微调模型时的不稳定性和过拟合问题，在广泛的实验中验证了该方法的有效性和优越性。

Mar, 2024

神经机器翻译微调的正则化技术

本研究探讨了神经机器翻译的监督域自适应技术，针对现有模型在大型非领域数据集训练后，如何适应小型领域数据集所出现的过拟合问题。在整个过程中，正则化技术，如 dropout 和 L2 正则化与非领域先验之间的关系得到了深入研究。此外，文章提出了一种新型的正则化技术 ——tuneout，即启发式 dropout。我们将这些技术单独或结合应用于神经机器翻译，以英语 -> 德语、英语 -> 俄语的 IWSLT 数据集为例取得了改进。此外，我们还研究了 NMT 领域中所需的领域内训练数据量，并发现培训数据与 BLEU 分数之间存在对数关系。

Jul, 2017

信息引导的正则化用于微调语言模型

传统的预训练 - 微调策略已被视为现代语言建模中的转移学习策略，但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响，并利用研究结果提出了一种新颖的用于改善模型正则化和下游泛化性能的 dropout 方法，名为 guided dropout。通过实证评估表明，相比于标准基线，在数据稀缺的情况下，我们的正则化方法始终能够得到更好的性能。

Jun, 2024

RegMixup：使用 Mixup 作为正则化器，出乎意料地可以提高精度和外部数据稳健性

利用 Mixup 作为标准交叉熵损失的额外正则化器，可以提高其精确度并在各种协变量转移和超出分布检测实验中显著提高其预测不确定性的质量。通过对视觉数据集 (ImageNet ＆ CIFAR-10/100) 的深入分析和实验来展示我们的方法（RegMixup）的功效，并与一系列最新方法进行比较，以实现可靠的不确定性估计。

Jun, 2022

RegMix: 以数据混合作为语言模型预训练的回归方法

使用回归模型自动识别高性能的数据混合，通过联合所有领域一起考虑以捕捉复杂性，RegMix 方法超过人工选择，并且仅使用 10％的计算预算实现与 DoReMi 相比匹配或更好的结果。

Jul, 2024

关于 Mixup 正则化

本论文研究数据增广技术 Mixup 的理论基础，指出 Mixup 可被解释为标准经验风险最小化估计器，通过数据转换和随机扰动来实现。该方法在测试时能够提高分类器性能，同时还获得了自校准和有效的正则化效果，以防止过度拟合和过度自信的预测。

Jun, 2020

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

用校准语言模型微调在内部和外部分布数据

本文提出了一种经过正则化的 fine-tuning 方法，通过在数据流形内插值产生假样本，加强 In-distribution 采样的平滑性；同时通过在采样流形外的假样本输出平均分布的方式来提高 OOD 数据的可靠性，实验证明了该方法的有效性。

Oct, 2020

使用噪声稳定正则化微调预训练语言模型

本文提出了一种名为 LNSR 的 fine-tuning 框架，通过注入高斯噪声或浸入式噪声，对 fine-tuned 模型的隐藏表示进行规范化，以解决预训练语言模型的过拟合问题，并证明其在 question answering task 方面具有优越性。

Jun, 2022

规范化的蒙版调整：揭示预训练视觉语言模型中的隐藏知识

我们设计了一种名为正则化掩码调优的新型调优方法，在下游任务中通过学习的选择来屏蔽网络参数，从而将前期训练阶段中隐藏的有用知识重新引入到视觉语言模型中，通过实验证明了这种方法在不同数据集上的优越性能。

Jul, 2023