Fine-Tuning 可以扭曲预训练特征且在超出分布时表现不佳

ICLRFeb, 2022

Fine-Tuning 可以扭曲预训练特征且在超出分布时表现不佳

Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution

Ananya Kumar, Aditi Raghunathan, Robbie Jones, Tengyu Ma, Percy Liang

TL;DR本文研究预训练模型在下游任务中的迁移方法，发现在预训练特征优秀且分布偏移较大的情况下，与全微调相比，线性探针能够获得更好的模型鲁棒性，同时，我们证明以固定或随机线性层初始化的全微调方法会导致模型在分布偏移下的错误率明显上升，而线性探针再进行全微调的策略则能够优化这一问题。

Abstract

When transferring a pretrained model to a downstream task, two popular methods are full fine-tuning (updating all the model parameters) and linear probing (updating only the last linear layer -- the "head"). It i

pretrained model fine-tuning linear probing distribution shift neural network

发现论文，激发创造

模型重新编程在文本 - 图像编码器的非分布数据上优于微调

评估预训练模型在下游任务中的性能时，除了评估下游模型的内分布准确性外，还必须评估其对于一般化和识别离群样本的能力。本文揭示了侵入性微调技术所带来的隐藏成本，提出了 Reprogrammer 方法来改善下游模型在内分布、离群泛化和离群检测任务中的整体性能。实证证据表明 Reprogrammer 是非侵入性的，能产生更优秀的下游模型，并通过添加额外的表示残差连接进一步保留预训练表示，从而获得更安全、更强大的下游模型，能在许多内分布分类、离群泛化和离群检测设置中表现出色。

Mar, 2024

关于差分隐私微调的收敛性：线性探测还是全面微调？

通过理论研究和实证评估，本文分析了差分隐私 fine-tuning 方法的训练动态，并探讨了顺序 fine-tuning 的现象及其对测试损失的影响，为过参数化神经网络中的差分隐私调优提供了理论洞见和隐私预算分配规则。

Feb, 2024

领域感知微调：增强神经网络的适应性

本文介绍了 Domain-Aware Fine-Tuning (DAFT) 的方法，该方法通过批量归一化转换和线性探测与微调的集成来有效减轻特征扭曲，并在分布和非分布数据集上实现了改进的模型性能。

Aug, 2023

手术微调改善对分布转移的适应

本文探讨迁移学习下的分布漂移问题，提出一种被称为外科手术微调的神经网络微调方法，用于适应数据分布迁移，经实验证明在实际任务中表现优异，特别是在处理图像时，只微调前几层会更有效。

Oct, 2022

使用特征扭曲和简洁偏好进行模型适应的深入研究

本文研究基于已有模型的迁移学习，并探究了现有协议在简单特征偏好方面的易感性，提出了可缓解简单特征偏好的改进线性探针，以改善模型初始化并提高模型性能。

Mar, 2023

迈向经过校准的鲁棒视觉语言模型微调

就细调技术在预训练模型的潜力释放和模型在分布偏移中的鲁棒性之间存在权衡关系，研究提出了一种校准鲁棒微调（CaRot）方法，以在内部数据和外部数据集上提高预训练视觉 - 语言模型（VLMs）的校准性和鲁棒性。验证结果证明了该方法的有效性。

Nov, 2023

预训练语言模型对于领域外探测几乎完美是否需要微调？

本研究探究了直接利用预训练语言模型进行 Out-of-Distribution 检测的有效性，并证明了其近乎完美的检测性能，同时揭示了 Fine-tuning 和其在 ID 精度与 OOD 检测性能之间的平衡作用。

May, 2023

利用中间表示进行更好的迁移学习：Head2Toe

本文介绍了一种名为 Head-to-Toe probing（Head2Toe）的新型迁移学习方法，在 VTAB-1k 数据集上通过选择源模型所有层的特征进行目标领域的分类，能够在保证模型性能的情况下将训练和存储成本大幅度降低，并且对于分布外迁移，Head2Toe 方法优于微调。

Jan, 2022

微调可能削弱基础模型；保留特征可能是解决方案

通过使用 LDIFS 方法，可以在保持下游任务性能不受明显影响的情况下，显著减少概念遗忘现象。

Aug, 2023

扩缩与移动特征：有效模型调优的新基准

提出了一种新的参数高效的调优方法（称为 SSF），仅需要缩放和移位预训练模型提取的深度特征即可达到与完全调优相同的性能。该方法仅在训练阶段添加可学习参数，并可以通过重新参数化将这些附加参数合并到原始预训练模型权重中，相比于完全调优表现出更好的性能，特别是对于少量的可调参数。在各种模型家族（CNN、Transformer 和 MLP）和数据集上进行的大量实验表明，SSF 的有效性。

Oct, 2022