精调不稳定性的度量
通过分析 BERT、RoBERTa 和 ALBERT 在 GLUE 基准测试集上的表现,本文表明,Fine-tuning 不稳定是由于优化困难导致梯度消失,我们提出了一个简单但强大的基线方法,使 BERT-based 模型的 fine-tuning 显著更稳定。
Jun, 2020
通过研究模型在训练过程中的随机性,我们发现在自然语言理解任务中,模型的预测结果的不稳定性会对一部分查询产生影响,提出了一种衡量稳定性现象的方法 —— 标签熵,我们研究了数据不可知的正则化方法和新的数据中心方法,发现它已在计算成本的分数中取得了 90% 的性能优势以及金标准的表现。
May, 2023
该研究通过对 GLUE 基准测试中的四个数据集进行 BERT 的微调,发现同样参数下,不同的随机种子会导致非常不同的结果表现,并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外,该研究对微调方法的实现提出了最佳实践,并公开其所有实验数据以供更深入的分析。
Feb, 2020
本文旨在通过调查感知随机性对模型性能和鲁棒性的影响,将模型稳定性量化为随机种子的函数。我们特别研究了随机种子对注意力、基于梯度和替代模型的(LIME)解释行为的影响。我们提出了一种名为 ASWA(Aggressive Stochastic Weight Averaging)的技术及其扩展版本 NASWA(Norm-filtered Aggressive Stochastic Weight Averaging),以提高对种子的模型稳定性。通过我们基于 ASWA 和 NASWA 的优化,我们能够提高原始模型的鲁棒性,平均缩减模型性能的标准差 72%。
Sep, 2019
对现代自然语言处理管道的核心构建块 —— 预训练词嵌入的稳定性进行深入研究,通过提出新的嵌入不稳定性度量来解释模型训练的不稳定性,并提出提高嵌入存储大小以达到降低不稳定性的稳定性 - 内存权衡。
Feb, 2020
本文提出了一种新颖有效的正则化方法,称为分层噪声稳定性正则化 (LNSR),其可改善在自然语言处理任务中的 fine-tuning。通过实验证明,使用 LNSR 的 fine-tuning 展现出明显的泛化和稳定性优势,并且我们的方法也显示出优于其他现有算法的优势。
Jul, 2021
本文提出了一种名为 LNSR 的 fine-tuning 框架,通过注入高斯噪声或浸入式噪声,对 fine-tuned 模型的隐藏表示进行规范化,以解决预训练语言模型的过拟合问题,并证明其在 question answering task 方面具有优越性。
Jun, 2022
在本文中,我们研究了训练稳定性和不稳定性在小规模下的再现和研究方法,重点关注了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源,并研究了学习率、优化器和模型干预对最终损失的敏感性的影响,以及通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。
Sep, 2023
深度神经网络的训练通常涉及随机优化,种子的选择对于训练模型的质量至关重要,本文通过鲁棒的假设检验提出了一个新的网络相似性的统计量,利用该统计量来指导随机种子的选择,同时展示了该统计量在实验中的价值和在迁移学习中调优相比随机种子选取的优势。
Jun, 2024