从大型基础模型传递知识到小型下游模型

ICMLJun, 2024

从大型基础模型传递知识到小型下游模型

Transferring Knowledge from Large Foundation Models to Small Downstream Models

Shikai Qiu, Boran Han, Danielle C. Maddix, Shuai Zhang, Yuyang Wang...

TL;DR在下游模型中以更低的成本运行的小型任务特定的下游模型中如何将相关知识从越来越大的基础模型转化过来。通过使用预训练权重作为初始化的标准迁移学习仅转移有限的信息，并且通常会导致庞大的预训练架构。为了解决这些缺点，我们引入自适应特征传输（AFT），它仅在特征上运行，从而将预训练模型的选择与较小的下游模型分离。AFT 自适应地传输对执行下游任务最有用的预训练特征，使用简单的正则化方法添加最小的开销。在多个视觉、语言和多模态数据集上，与类似的计算成本的替代方法相比，AFT 实现了显著更好的下游性能。此外，AFT 可靠地将预训练模型的改进转化为下游性能的提升，即使下游模型的规模缩小了 50 倍以上，也能有效地传输多个预训练模型学到的互补信息。

Abstract

How do we transfer the relevant knowledge from ever larger foundation models into small, task-specific downstream models that can run at much lower costs? Standard transfer learning using pre-trained weights as t

transfer learning pre-trained models downstream models adaptive feature transfer complementary information

发现论文，激发创造

通过微观偏差 - 方差分析理解最佳特征转移

在转移学习范式下，该研究探索了使用预训练特征转换来优化下游性能的简单线性模型，并发现了通过最小化沿着一组下游任务的平均渐近下游风险来确定最佳预先训练表示的相对重要性以及从偏差 - 方差角度对它们的贡献的特征和结构的学习。

Apr, 2024

走向科学机器学习的基础模型：特征缩放与转移行为表征

研究表明，预训练模型可以应用于科学机器学习任务中的迁移学习，可在细调适当的预训练模型下，以比从头开始训练少得多的下游示例实现期望的准确度水平。模型的规模越大，用 fine-tuning 方法会获得更好的性能提升，这为 SciML 问题的建模奠定了基础。

Jun, 2023

一个无需关注机制的 Transformer

本研究提出了 Attention Free Transformer (AFT) 框架，它采用了一种高效的元素级别的矩阵运算，不需要使用点积自注意力机制，通过引入位置偏移可以降低存储复杂度，同时实现了全局连接与本地化结合的空间权重共享。在 CIFAR10、Enwik8 和 ImageNet-1K 等任务上，实验表明 AFT 框架显示出优秀的性能和高效性。

May, 2021

惊人的收益及其发现之处：关于任何预训练模型之间普适知识转移存在和前景

为了训练深度网络，需要在体系结构、数据增强或优化等方面作出各种设计决策。本文通过使用由数千个在 ImageNet 等经典数据集上训练的模型组成的公共模型库，在预训练模型的任意配对中发现了不同模型从数据中学习出独特的特征集。我们研究了在没有外部排名的情况下，是否能够在不降低性能的情况下从一种模型中转移这种 “互补” 知识到另一种模型，同时将强大、具有相似性能或较弱模型中的额外知识结合起来。通过大规模实验，我们揭示了标准知识蒸馏技术的缺点，并提出了一种更加通用的通过数据划分实现几乎所有预训练模型之间成功转移的方法，也证明了无监督转移的可能性。最后，我们评估了基本模型属性对成功的模型无关知识转移的可扩展性和影响。

Oct, 2023

大规模预训练分类器任务可转移性分析

本文通过分析在只微调模型最后一层的情况下分类任务的性能传输，提出了一种新颖的任务转移分析方法，该方法通过改变类先验分布、标签和特征空间的方法变换源分布，并利用 Wasserstein 距离、标签分布的条件熵以及源分布的带权损失等因素说明了传输性，同时提出了最小化转移上限的变换源任务的优化问题，通过对最新的预训练模型进行大规模实证研究，证明了本方法在预测传输性方面的有效性。

Jul, 2023

微调可能削弱基础模型；保留特征可能是解决方案

通过使用 LDIFS 方法，可以在保持下游任务性能不受明显影响的情况下，显著减少概念遗忘现象。

Aug, 2023

用于判别性和生成性连续学习的高效特征变换

本文提出了一种称为 EFTs 的简单的任务特定特征映射转换策略，具有强大的灵活性，利用最小的参数增加了基本体系结构，使其在大规模场景下实用；我们还提出了一种特征距离最大化策略来完成类增量设置中的任务预测。通过在较广泛的一系列任务序列中的实验，包括区分性任务和生成任务，证明了该方法的实效性和效率。

Mar, 2021

下游微调的预训练模型建议

本文提出了一个实用性框架 Fennec，通过将所有模型和历史任务映射到一个 transfer-related 子空间中，以判断他们之间的可迁移性，并通过一个大型视觉模型来推断新任务在 transfer 空间中的表示，最后通过 rigorous testing 在两个基准测试上验证了框架的有效性。

Mar, 2024

基于基础模型的高效任务驱动模型重编程

该论文提出了一种基于任务的模型重新编程框架，可用于模型之间的知识跨越传递，从而便于在 Downstream 任务中使用视觉基础模型，实现向下游任务的低成本迁移。该方法适用于不同类型的预训练模型（CNN、Transformer 或其混合），并证明了在不同的下游分类任务和目标模型结构上的有效性。

Apr, 2023

利用视觉基础模型，高效训练小型任务专用模型

利用大型视觉基础模型（VFMs）通过在庞大数据集上预训练，以及在有限标记的目标数据下展现出优异性能的情况下，提出了一种简单高效的面向任务的知识迁移方法，用于对小型任务特定模型进行有效训练。实验结果表明，该方法在有限标记数据的情况下，在四个目标任务上的性能优于面向任务无关的 VFM 蒸馏、Web 规模 CLIP 预训练和监督式 ImageNet 预训练，分别提升了 1-10.5%、2-22% 和 2-14%。研究还指出了用于知识迁移的数据集对最终目标任务性能的显著影响，并提出了基于图像检索的方法来筛选有效的迁移集。

Nov, 2023