微调预训练模型的稳定性分析
通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现,本文表明,Fine-tuning 不稳定是由于优化困难导致梯度消失,我们提出了一个简单但强大的基线方法,使 BERT-based 模型的 fine-tuning 显著更稳定。
Jun, 2020
微调预训练模型的能力和安全性的研究表明,微调很少改变模型的底层能力,而是在这些能力之上学习了一种被称为 “包装器” 的微小转换,进一步的微调则可以使模型重新利用这些能力。
Nov, 2023
本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架,用于更加有效地对预训练语言模型进行微调,避免过拟合和知识遗忘,通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。
Nov, 2019
本文研究了 BERT 上下文表示的微调,重点关注少样本场景中常见的不稳定性,我们确定了引起这种不稳定性的几个因素,包括使用非标准优化方法、BERT 网络的显著部分在下游任务中的有限适用性以及使用预先确定的训练迭代次数的普遍做法。在这些观察的基础上,我们重新审视了最近提出的改善 BERT 少样本微调的方法,并重新评估了它们的有效性。通常情况下,我们观察到这些方法在我们修改后的过程中的影响显著降低。
Jun, 2020
本文系统研究了微生物 NLP 中 fine-tuning 的稳定性,提出了一系列技术来解决这个问题,并通过领域特定词汇和预训练来建立更健壮的模型。
Dec, 2021
本研究通过实验证明,相较于 fine-tuning 方法,prefix tuning 在面对嘈杂数据时更脆弱,会导致性能下降,特别是在噪声水平增加的数据集中,此外,prefix tuning 在许多污染方法中的 F1 得分方差比 fine-tuning 高,因此在使用这种方法处理嘈杂的数据时应谨慎。
Oct, 2022
通过概念微调(Concept-Tuning)方法,可以改善预训练模型的特征表示,减少罕见特征和虚假关联特征的负面影响,进而提高细调方法在各种数据集上的表现。
Nov, 2023
本文介绍了 Fine-tuning pre-trained models 方法的缺点,提出了采用参数稀疏性进行参数调优的方法,并且通过理论分析表明,这种参数稀疏性会在一定程度上控制稳定性上限,提高泛化能力;同时还提出了一种新的 SAM 方法用于选择可调参数,并通过实验证实了理论分析的正确性。
Nov, 2022
为下游任务优化大型预训练语言模型仍然是自然语言处理中的一个关键挑战。本文通过实证分析比较了两种高效微调方法 ——BitFit 和适配器模块与标准的全模型微调。在 GLUE 基准数据集(MRPC、COLA、STS-B)上进行的实验证明了几个关键观点。BitFit 方法仅训练偏置项和任务头,在不同数量的训练数据和时间限制下,与全模型微调相当。即使只使用 30% 的数据,它也表现出明显的稳定性,在中等数据水平上优于全模型微调。适配器模块的性能变异较大,在默认模型上的收益一致性较差。研究结果表明,BitFit 在性能和参数效率之间取得了一个有吸引力的平衡。我们的工作为大型预训练模型的高效调整提供了宝贵的视角,强调了其鲁棒性,并将 BitFit 作为资源受限或流式任务设置的一种有希望的替代方案。该分析提供了有效适应大型预训练模型的可操作指南,同时展示了适配器模块等稳定技术面临的挑战。
Jan, 2024