离线调整:无需完整模型的迁移学习
借助 CRaSh 方法,通过探索 Large Language Models (LLMs) 的模块化结构和表示相似性,本文研究了 Offsite-Tuning (OFT) 技术及其与后端模拟器之间的转换,提高其性能并解决隐私问题。研究发现模型大小会导致 LLMs 内层面的唯一模块结构的出现,并注意到隐含的表示和中间预测方面的微妙变化。实验结果证明 CRaSh 和 OFT 的有效性,且细调尝试的结构优化解具有线性连通性。
Oct, 2023
AutoFT 是一种基于数据驱动的方法,用于指导基础模型的微调,以优化性能和改善泛化能力。实验证明 AutoFT 在多个分布转移任务上表现出色,显著提高了对新的异常数据的泛化能力,并在 WILDS-iWildCam 和 WILDS-FMoW 基准测试上取得了新的最佳结果。
Jan, 2024
本文研究了基于 Adapter 的微调方法。实验证明,对于某些具有挑战性的任务,Adapter-based tuning 方法比 fine-tuning 效果更好,并且更抗过拟合和更不敏感于学习率的变化。
Jun, 2021
本文提出了一种自适应微调方法 SpotTune,使用策略网络根据目标任务的数据实例来选择微调层或预训练层,实验证明该方法在计算机视觉中的迁移学习应用中优于传统的微调方法,并在 Visual Decathlon 数据集中表现优异。
Nov, 2018
在下游模型中以更低的成本运行的小型任务特定的下游模型中如何将相关知识从越来越大的基础模型转化过来。通过使用预训练权重作为初始化的标准迁移学习仅转移有限的信息,并且通常会导致庞大的预训练架构。为了解决这些缺点,我们引入自适应特征传输(AFT),它仅在特征上运行,从而将预训练模型的选择与较小的下游模型分离。AFT 自适应地传输对执行下游任务最有用的预训练特征,使用简单的正则化方法添加最小的开销。在多个视觉、语言和多模态数据集上,与类似的计算成本的替代方法相比,AFT 实现了显著更好的下游性能。此外,AFT 可靠地将预训练模型的改进转化为下游性能的提升,即使下游模型的规模缩小了 50 倍以上,也能有效地传输多个预训练模型学到的互补信息。
Jun, 2024
本文介绍了一种更新基础模型以适应新信息并保留其原始能力的新方法,通过对一小部分参数进行本地化修改,并引入重要性评分机制来仅更新最关键的权重,在多样的持续学习任务中得到了全面评估,表明其能够提高现有的持续学习方法并减少已训练知识的损失。
Aug, 2023
参数效率微调(PEFT)是应对大型语言模型的适应和服务挑战的一种有前景的方法,本研究中描述了一种非侵入式的 PEFT 技术 AdaLink,并在各种任务中与最先进的侵入式 PEFT(LoRA)和全模型微调(FT)相比表现出有竞争力的性能。
Oct, 2023
通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。
Dec, 2023
该研究探讨了大型语言模型的细调策略,发现可替代方法在领域外泛化方面与标准方法相媲美,强调了对有效提示的需求,并针对可用资源和任务适应性进行合适的细调方法选择。
May, 2024