离线调整：无需完整模型的迁移学习

Feb, 2023

离线调整：无需完整模型的迁移学习

Offsite-Tuning: Transfer Learning without Full Model

Guangxuan Xiao, Ji Lin, Song Han

TL;DR本文提出一种名为 Offsite-Tuning 的隐私保护和高效的迁移学习框架，可以适应亿级基础模型到下游数据，同时保留各方的隐私，比现有的需要访问全部模型权重的微调方法在计算上更加高效。

Abstract

transfer learning is important for foundation models to adapt to downstream tasks. However, many foundation models are proprietary, so users must share their data with model owners to fine-tune the models, which is costly and raise privacy concerns. Moreover, fine-tuning large foundati

transfer learning privacy-preserving computational efficiency billion-parameter foundation models offsite-tuning

发现论文，激发创造

CRaSh：聚类、剪枝和共享增强细调，无需完整大型语言模型

借助 CRaSh 方法，通过探索 Large Language Models (LLMs) 的模块化结构和表示相似性，本文研究了 Offsite-Tuning (OFT) 技术及其与后端模拟器之间的转换，提高其性能并解决隐私问题。研究发现模型大小会导致 LLMs 内层面的唯一模块结构的出现，并注意到隐含的表示和中间预测方面的微妙变化。实验结果证明 CRaSh 和 OFT 的有效性，且细调尝试的结构优化解具有线性连通性。

Oct, 2023

AutoFT：通过 OOD 数据优化超参数进行稳健微调

AutoFT 是一种基于数据驱动的方法，用于指导基础模型的微调，以优化性能和改善泛化能力。实验证明 AutoFT 在多个分布转移任务上表现出色，显著提高了对新的异常数据的泛化能力，并在 WILDS-iWildCam 和 WILDS-FMoW 基准测试上取得了新的最佳结果。

Jan, 2024

预训练语言模型适应的基于转换器的调整方法的有效性研究

本文研究了基于 Adapter 的微调方法。实验证明，对于某些具有挑战性的任务，Adapter-based tuning 方法比 fine-tuning 效果更好，并且更抗过拟合和更不敏感于学习率的变化。

Jun, 2021

微调可能削弱基础模型；保留特征可能是解决方案

通过使用 LDIFS 方法，可以在保持下游任务性能不受明显影响的情况下，显著减少概念遗忘现象。

Aug, 2023

SpotTune: 自适应微调的迁移学习

本文提出了一种自适应微调方法 SpotTune，使用策略网络根据目标任务的数据实例来选择微调层或预训练层，实验证明该方法在计算机视觉中的迁移学习应用中优于传统的微调方法，并在 Visual Decathlon 数据集中表现优异。

Nov, 2018

从大型基础模型传递知识到小型下游模型

在下游模型中以更低的成本运行的小型任务特定的下游模型中如何将相关知识从越来越大的基础模型转化过来。通过使用预训练权重作为初始化的标准迁移学习仅转移有限的信息，并且通常会导致庞大的预训练架构。为了解决这些缺点，我们引入自适应特征传输（AFT），它仅在特征上运行，从而将预训练模型的选择与较小的下游模型分离。AFT 自适应地传输对执行下游任务最有用的预训练特征，使用简单的正则化方法添加最小的开销。在多个视觉、语言和多模态数据集上，与类似的计算成本的替代方法相比，AFT 实现了显著更好的下游性能。此外，AFT 可靠地将预训练模型的改进转化为下游性能的提升，即使下游模型的规模缩小了 50 倍以上，也能有效地传输多个预训练模型学到的互补信息。

Jun, 2024

通过选择性参数微调克服通用知识丢失

本文介绍了一种更新基础模型以适应新信息并保留其原始能力的新方法，通过对一小部分参数进行本地化修改，并引入重要性评分机制来仅更新最关键的权重，在多样的持续学习任务中得到了全面评估，表明其能够提高现有的持续学习方法并减少已训练知识的损失。

Aug, 2023

非侵入式调整：面向输入的参数高效微调用于多模态建模

参数效率微调（PEFT）是应对大型语言模型的适应和服务挑战的一种有前景的方法，本研究中描述了一种非侵入式的 PEFT 技术 AdaLink，并在各种任务中与最先进的侵入式 PEFT（LoRA）和全模型微调（FT）相比表现出有竞争力的性能。

Oct, 2023

精调预训练大型语言模型中的稀疏是足够的

通过研究下游领域的损失函数从随机初始化到预训练初始化的变换，本文揭示了参数梯度稀疏性的特性，提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT)，并在多个任务上验证了其有效性。

Dec, 2023

大型语言模型（LLM）在低资源环境中不同有效微调方法的比较分析

该研究探讨了大型语言模型的细调策略，发现可替代方法在领域外泛化方面与标准方法相媲美，强调了对有效提示的需求，并针对可用资源和任务适应性进行合适的细调方法选择。

May, 2024