微调可能削弱基础模型；保留特征可能是解决方案

Aug, 2023

微调可能削弱基础模型；保留特征可能是解决方案

Fine-tuning can cripple your foundation model; preserving features may be the solution

Jishnu Mukhoti, Yarin Gal, Philip H.S. Torr, Puneet K. Dokania

TL;DR通过使用 LDIFS 方法，可以在保持下游任务性能不受明显影响的情况下，显著减少概念遗忘现象。

Abstract

pre-trained foundation models, owing primarily to their enormous capacity and exposure to vast amount of training data scraped from the internet, enjoy the advantage of storing knowledge about plenty of real-world concepts. Such models are typically fine-tuned on downstream datasets to

pre-trained foundation models fine-tuning concept forgetting end-to-end fine-tuning approaches ldifs

发现论文，激发创造

概念级微调对防止负面迁移的重要性

通过概念微调（Concept-Tuning）方法，可以改善预训练模型的特征表示，减少罕见特征和虚假关联特征的负面影响，进而提高细调方法在各种数据集上的表现。

Nov, 2023

特化与泛化：对基础模型微调中灾难性遗忘的实证研究

为了解决 fine-tuning 中特性和广泛适用性之间的矛盾，我们研究了来自持续学习的多种规范化方法和来自越界通用化的权重平均方法，发现持续学习和 Wise-FT 方法可以有效减轻广泛适用性的损失，其中 Wise-FT 在平衡特性和广泛适用性方面表现最好。

Sep, 2023

微调强化学习模型其实是一种遗忘缓解问题

通过对 NetHack 和 Montezuma's Revenge 环境的详细实证分析，我们表明标准的知识保留技术缓解了这个问题，从而使我们能够充分利用预训练的能力，特别是在 NetHack 中，在人类僧侣场景中我们实现了新的神经模型的最新成绩，从 5K 分提高到超过 10K 分。

Feb, 2024

通过选择性参数微调克服通用知识丢失

本文介绍了一种更新基础模型以适应新信息并保留其原始能力的新方法，通过对一小部分参数进行本地化修改，并引入重要性评分机制来仅更新最关键的权重，在多样的持续学习任务中得到了全面评估，表明其能够提高现有的持续学习方法并减少已训练知识的损失。

Aug, 2023

缓解连续微调中的表征漂移

本文提出了一种包含两个组件（交叉卷积批量规范化和分层微调）的微调方法 ConFiT，旨在解决表示转移和批量规范化不一致的问题，并在四个数据集上得到了较低存储开销的优异性能表现。

Apr, 2022

Fine-Tuning 可以扭曲预训练特征且在超出分布时表现不佳

本文研究预训练模型在下游任务中的迁移方法，发现在预训练特征优秀且分布偏移较大的情况下，与全微调相比，线性探针能够获得更好的模型鲁棒性，同时，我们证明以固定或随机线性层初始化的全微调方法会导致模型在分布偏移下的错误率明显上升，而线性探针再进行全微调的策略则能够优化这一问题。

Feb, 2022

卷积网络迁移学习的显式归纳偏置

本文研究在归纳迁移学习中，fine-tuning 方式相较于从头训练卷积神经网络具有更好的表现。为了提高 fine-tuned 模型在目标任务上的泛化性能，本文探究了多种正则化方法，最终推荐采用 $L^2$ 惩罚并将预训练模型作为基准的方法作为迁移学习任务的 baseline。

Feb, 2018

通过调整输入空间来使用预训练的骨干网络进行持续学习

本文提出了一种用于解决深度学习模型在不稳定环境下适应性差的问题的新方法，通过避免更新网络的预训练部分，同时学习一组新的可学习参数来改善细调过程的效果，以使网络在保证适应性和稳定性之间达到平衡，得到了不错的实验结果，适用于实时场景下的持续学习问题。

Jun, 2023

LEVI: 通过层次集成不同视角进行通用微调

基于已训练好的基础模型进行微调在新的下游任务中得到广泛应用，但是存在着泛化到未见分布（即超过分布；OOD）的挑战。为了改善 OOD 的泛化能力，本文提出了一种新的通用微调方法 LEVI，在保留训练和推断效率的同时，通过自适应地对预训练模型进行逐层集成和与小型任务专属模型相结合，有效地抑制了微调数据和预训练模型中的问题特征，保留了新任务所需的有用特征。通过大规模语言和视觉模型进行的广泛实验表明，LEVI 通过强调来自微调数据和预训练特征的不同视角，极大地提高了微调的泛化能力。

Feb, 2024

一种用于时间序列的监督对比学习预训练 - 微调方法

引入一种新的预训练程序，利用有监督对比学习来区分每个预训练数据集中的特征，进而通过将目标数据与预训练数据集的学习动态更加紧密地对齐，以提高目标数据的准确预测。

Nov, 2023