神经网络微调的改进正则化和鲁棒性
本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架,用于更加有效地对预训练语言模型进行微调,避免过拟合和知识遗忘,通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。
Nov, 2019
在这项研究中,我们的目标是找到一种适用于带有噪声标签数据集的预训练模型微调的合适方法。通过经验分析,我们引入了一种名为 TURN 的新算法,其能够稳健且高效地传递预训练模型的先验知识。该算法包括两个主要步骤:(1)独立调整线性分类器来保护特征提取器免受噪声标签的扭曲影响,以及(2)减少噪声标签比例并基于降噪后的数据集对整个模型进行微调以适应目标数据集。与先前方法相比,该算法在各种基准测试中广泛测试,表现出高效且改进的降噪性能。
Oct, 2023
本文介绍了一种基于权重移动距离的神经网络泛化界定方法,提出了一种基于传递学习的初始权重的微调算法,通过在半径较小的搜索空间内限制假设类来实现更好的泛化性能,并且通过实验证实了该算法的有效性和优越性。
Feb, 2020
探讨在有噪声标签的情况下,过度参数化的深度神经网络的正则化方法,其中比较有效的包括参数与初始化之间的距离和为每个训练示例添加一个可训练的辅助变量,实验结果表明这些方法能够有效提高模型的泛化性,并且泛化误差的上界独立于网络的大小,可达到无噪声标签情况下的水平。
May, 2019
该研究通过开发一种对比自训练框架 (COSINE) 来解决使用弱监督 fine-tune 预训练语言模型 (LMs) 时的过拟合问题,实验证明该方法在自然语言处理的多个任务中表现优异。
Oct, 2020
本文提出了一种名为 LNSR 的 fine-tuning 框架,通过注入高斯噪声或浸入式噪声,对 fine-tuned 模型的隐藏表示进行规范化,以解决预训练语言模型的过拟合问题,并证明其在 question answering task 方面具有优越性。
Jun, 2022
传统的预训练 - 微调策略已被视为现代语言建模中的转移学习策略,但需要更具目标敏感性的参数正则化方法以实现更平滑的转移学习。本文通过信息论的角度研究了预训练损失函数在任务敏感参数上的影响,并利用研究结果提出了一种新颖的用于改善模型正则化和下游泛化性能的 dropout 方法,名为 guided dropout。通过实证评估表明,相比于标准基线,在数据稀缺的情况下,我们的正则化方法始终能够得到更好的性能。
Jun, 2024
我们提出了一种用于预训练可认证的强健模型的方法,通过显著扩展预训练数据分布,在下游任务的微调中取得显著效益。我们通过对混合干净图像和各种噪声图像进行预训练,发现即使仅在干净图像上进行微调,也能取得惊人的认证准确率。此外,我们的方法仅需一个模型,即可处理各种噪声水平,大大降低了与以往使用多个模型的方法相比的计算成本。尽管仅使用一个模型,我们的方法仍可以得出与现有的多模型方法相当甚至更好的结果。
Dec, 2023
本文提出了一种新的、称为弹性调整的 fine-tuning 方式,可以用于处理不同于预训练源的、但与其语义相近的实际数据。通过实验证明,相较于传统做法,在许多领域转移情况中调整中间或早期单元的效果更好。
Aug, 2020