如何为微调准备您的任务头

Feb, 2023

How to prepare your task head for finetuning

Yi Ren, Shangmin Guo, Wonho Bae, Danica J. Sutherland

TL;DR通过分析任务头的选择对特征适应的控制，进而影响下游性能，我们发现精细调节一开始的训练准确度和损失，在初始能量的变化对精调后特征的效果有重大影响，最终证明高能量会增加特征的欧几里得和余弦距离，但点积（和精调后特征的范数）会先增加后下降，并提出了一些实际原则来提高下游性能。

Abstract

In deep learning, transferring information from a pretrained network to a downstream task by finetuning has many benefits. The choice of task head plays an important role in →

deep learning pretrained network fine-tuning feature adaptation downstream performance

发现论文，激发创造

调整还是不调整？将预训练表征适应于不同任务

研究了预训练模型在给定目标任务中的最佳适应方式，着重探讨了 fine-tuning 和 feature extraction 两种常见的适应形式的相对性能，并提出了一组适用于 NLP 应用者的模型调整指南。

Mar, 2019

预训练和微调表示的相似性

本文研究转移学习中的表示变化，并发现在少样本学习中，在转移学习的早期层次中进行表示变化是有益的，特别是在跨域适应的情况下。同时，我们发现在转移学习的预训练和微调过程中，预训练结构如果不能使用，则不能被学习。

Jul, 2022

通过微观偏差 - 方差分析理解最佳特征转移

在转移学习范式下，该研究探索了使用预训练特征转换来优化下游性能的简单线性模型，并发现了通过最小化沿着一组下游任务的平均渐近下游风险来确定最佳预先训练表示的相对重要性以及从偏差 - 方差角度对它们的贡献的特征和结构的学习。

Apr, 2024

关于在具有高度区分特征的数据上微调的后果

在迁移学习时代，从头开始训练神经网络已经过时。迁移学习利用先前的知识进行新任务训练，节省计算资源。然而，我们发现一个显著的缺点：网络倾向于优先考虑基本的数据模式，而忽视宝贵的预先学习特征。我们将这种行为称为 “特征侵蚀”，并分析其对网络性能和内部表示的影响。

Oct, 2023

预训练表示的双调谐

本文提出 Bi-tuning，一种细调深度学习模型的新方法，能同时利用监督和无监督预训练，并综合使用有标签数据的判别信息和无标签数据的数据结构，相较于现有策略，在精度上有了长足的提升。

Nov, 2020

基于不变性的视觉 Transformer 微调过程研究

本文旨在研究预训练与微调之间的关系，提出了一系列度量指标，探讨了预训练模型中不变性的传递性、微调过程中对不变性的保留与丢失、以及预训练模型在下游任务中的表现和变化。

Jul, 2023

参数高效调整使分类头表现优秀

本文中，我们发现参数高效调整可以使良好的分类头，用它可以取代随机初始化的头以获得稳定的性能提高。我们的实验表明，与参数高效调整预训练的分类头共同作用，可以在 GLUE 和 SuperGLUE 的 9 个任务中持续改善性能。

Oct, 2022

关于语言编码器的手术微调

为适应新任务，研究发现只对神经语言编码器的部分层进行微调就足以获得接近甚至更好的性能，提出一种基于 Fisher 信息矩阵对候选层进行选择的高效度量指标，并通过在不同语言编码器和任务上的实验证明该指标能够有效选择层以获得强大的下游性能。

Oct, 2023

Fine-Tuning 可以扭曲预训练特征且在超出分布时表现不佳

本文研究预训练模型在下游任务中的迁移方法，发现在预训练特征优秀且分布偏移较大的情况下，与全微调相比，线性探针能够获得更好的模型鲁棒性，同时，我们证明以固定或随机线性层初始化的全微调方法会导致模型在分布偏移下的错误率明显上升，而线性探针再进行全微调的策略则能够优化这一问题。

Feb, 2022

通过调整输入空间来使用预训练的骨干网络进行持续学习

本文提出了一种用于解决深度学习模型在不稳定环境下适应性差的问题的新方法，通过避免更新网络的预训练部分，同时学习一组新的可学习参数来改善细调过程的效果，以使网络在保证适应性和稳定性之间达到平衡，得到了不错的实验结果，适用于实时场景下的持续学习问题。

Jun, 2023