如何为微调准备您的任务头
研究了预训练模型在给定目标任务中的最佳适应方式,着重探讨了 fine-tuning 和 feature extraction 两种常见的适应形式的相对性能,并提出了一组适用于 NLP 应用者的模型调整指南。
Mar, 2019
本文研究转移学习中的表示变化,并发现在少样本学习中,在转移学习的早期层次中进行表示变化是有益的,特别是在跨域适应的情况下。同时,我们发现在转移学习的预训练和微调过程中,预训练结构如果不能使用,则不能被学习。
Jul, 2022
在转移学习范式下,该研究探索了使用预训练特征转换来优化下游性能的简单线性模型,并发现了通过最小化沿着一组下游任务的平均渐近下游风险来确定最佳预先训练表示的相对重要性以及从偏差 - 方差角度对它们的贡献的特征和结构的学习。
Apr, 2024
在迁移学习时代,从头开始训练神经网络已经过时。迁移学习利用先前的知识进行新任务训练,节省计算资源。然而,我们发现一个显著的缺点:网络倾向于优先考虑基本的数据模式,而忽视宝贵的预先学习特征。我们将这种行为称为 “特征侵蚀”,并分析其对网络性能和内部表示的影响。
Oct, 2023
本文提出 Bi-tuning,一种细调深度学习模型的新方法,能同时利用监督和无监督预训练,并综合使用有标签数据的判别信息和无标签数据的数据结构,相较于现有策略,在精度上有了长足的提升。
Nov, 2020
本文旨在研究预训练与微调之间的关系,提出了一系列度量指标,探讨了预训练模型中不变性的传递性、微调过程中对不变性的保留与丢失、以及预训练模型在下游任务中的表现和变化。
Jul, 2023
本文中,我们发现参数高效调整可以使良好的分类头,用它可以取代随机初始化的头以获得稳定的性能提高。我们的实验表明,与参数高效调整预训练的分类头共同作用,可以在 GLUE 和 SuperGLUE 的 9 个任务中持续改善性能。
Oct, 2022
为适应新任务,研究发现只对神经语言编码器的部分层进行微调就足以获得接近甚至更好的性能,提出一种基于 Fisher 信息矩阵对候选层进行选择的高效度量指标,并通过在不同语言编码器和任务上的实验证明该指标能够有效选择层以获得强大的下游性能。
Oct, 2023
本文研究预训练模型在下游任务中的迁移方法,发现在预训练特征优秀且分布偏移较大的情况下,与全微调相比,线性探针能够获得更好的模型鲁棒性,同时,我们证明以固定或随机线性层初始化的全微调方法会导致模型在分布偏移下的错误率明显上升,而线性探针再进行全微调的策略则能够优化这一问题。
Feb, 2022
本文提出了一种用于解决深度学习模型在不稳定环境下适应性差的问题的新方法,通过避免更新网络的预训练部分,同时学习一组新的可学习参数来改善细调过程的效果,以使网络在保证适应性和稳定性之间达到平衡,得到了不错的实验结果,适用于实时场景下的持续学习问题。
Jun, 2023