使用特征扭曲和简洁偏好进行模型适应的深入研究

ICLRMar, 2023

使用特征扭曲和简洁偏好进行模型适应的深入研究

A Closer Look at Model Adaptation using Feature Distortion and Simplicity Bias

Puja Trivedi, Danai Koutra, Jayaraman J. Thiagarajan

TL;DR本文研究基于已有模型的迁移学习，并探究了现有协议在简单特征偏好方面的易感性，提出了可缓解简单特征偏好的改进线性探针，以改善模型初始化并提高模型性能。

Abstract

Advances in the expressivity of pretrained models have increased interest in the design of adaptation protocols which enable safe and effective transfer learning. Going beyond conventional linear probing (LP) and fine tuning (FT) strategies, protocols that can effectively control

pretrained models transfer learning feature distortion safety objectives linear probes

发现论文，激发创造

探索适应性协议的设计，以实现更好的泛化和机器学习安全

本研究通过评估常见的适应协议跨分布改变和机器学习安全度量，并探讨如何应用数据扩增来减轻不同适应协议的权衡。最终，假设并验证了在线性探测时使用硬度增强扩展，然后使用扩展调整的硬度增强扩展可能特别有效来减轻权衡。

Jul, 2022

Fine-Tuning 可以扭曲预训练特征且在超出分布时表现不佳

本文研究预训练模型在下游任务中的迁移方法，发现在预训练特征优秀且分布偏移较大的情况下，与全微调相比，线性探针能够获得更好的模型鲁棒性，同时，我们证明以固定或随机线性层初始化的全微调方法会导致模型在分布偏移下的错误率明显上升，而线性探针再进行全微调的策略则能够优化这一问题。

Feb, 2022

SAFT: 朝向微调的超出分布泛化

本文介绍了一种名为 Sparse Adaptation for Fine-Tuning（SAFT）的方法，它通过只更新一小部分重要参数来防止微调过程中遗忘预训练模型的通用知识。实验证明，使用 SAFT 可以显著提升 CLIP 模型的性能，在多个基准任务中，SAFT 方法始终优于基准方法，在 OOD 环境中，与传统微调方法相比，SAFT 平均提升 5.15%。

Jul, 2024

大型语言模型（LLM）在低资源环境中不同有效微调方法的比较分析

该研究探讨了大型语言模型的细调策略，发现可替代方法在领域外泛化方面与标准方法相媲美，强调了对有效提示的需求，并针对可用资源和任务适应性进行合适的细调方法选择。

May, 2024

改善深度学习中的简化偏差，促进超出分布的普适性和鲁棒性

神经网络对简单特征具有偏好，本文提出了一种鼓励模型使用多样性特征进行预测的框架，通过训练一个简单模型并对其进行条件互信息的正则化，解决了简单性偏差问题，并在各种问题设置和实际应用中显示了其有效性，提高了模型的性能以及鲁棒性和公平性。

Oct, 2023

领域感知微调：增强神经网络的适应性

本文介绍了 Domain-Aware Fine-Tuning (DAFT) 的方法，该方法通过批量归一化转换和线性探测与微调的集成来有效减轻特征扭曲，并在分布和非分布数据集上实现了改进的模型性能。

Aug, 2023

通过插值正交特征进行样本高效的域适应

本文提出了一种名为 Pro$^2$ 的轻量、样本高效的方法，通过将预训练嵌入映射到正交方向来学习多样的预测特征，并在小目标数据集上适应目标分布。在多个数据集上的试验表明，与标准线性探测等先前方法相比，Pro$^2$ 提高了 5-15% 的性能。

Feb, 2023

规避简化偏差：训练多样化模型集发现具有更优越 OOC 普适性的解决方案

研究发现神经网络训练过程中存在简单性偏差，该偏差导致其缺乏鲁棒性，但该问题可通过不同方式训练来缓解，其中包括使用梯度对齐的惩罚项进行训练，以及在独立的模型选择阶段解决信息不足问题，此方法在视觉识别上获得了最佳结果。

May, 2021

使用参数高效迁移学习探索语言模型的越界鲁棒性

本研究系统地探讨了在预训练语言模型（Pre-trained Language Models）规模扩大或转移方法改变时，检测样本分布变化的能力如何随之改变，着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。

Jan, 2023

关于差分隐私微调的收敛性：线性探测还是全面微调？

通过理论研究和实证评估，本文分析了差分隐私 fine-tuning 方法的训练动态，并探讨了顺序 fine-tuning 的现象及其对测试损失的影响，为过参数化神经网络中的差分隐私调优提供了理论洞见和隐私预算分配规则。

Feb, 2024