通过研究下游领域的损失函数从随机初始化到预训练初始化的变换,本文揭示了参数梯度稀疏性的特性,提出了基于梯度的稀疏微调算法 Sparse Increment Fine-Tuning (SIFT),并在多个任务上验证了其有效性。
Dec, 2023
通过在参数更新中使用矩阵的稀疏组合,SVFT 方法在仅使用 0.006% 到 0.25% 的可训练参数时,能够恢复高达 96% 的全面微调性能,超过了仅使用 0.03% 到 0.8% 的可训练参数预算恢复的最高 85% 性能。
May, 2024
提出了一种新的谱感知适应框架,即 SODA,用于大规模预训练生成模型的参数高效适应,通过调整预训练权重的奇异值和基向量来实现参数高效适应正交矩阵,提供了一种谱感知替代现有微调方法的有效选择。
Sparse-Tuning 是一种新的调优范式,通过稀疏保存信息标记并合并冗余标记,提高对前景的关注并降低背景区域的计算成本,实现了对预训练的 ViT 模型进行高效的微调和推断,同时具备了现有方法无法满足的 GPU 内存和时间效率要求。
规模化预训练视觉模型(PVMs)在各种下游视觉任务中表现出很大的适应性。然而,随着最先进的 PVMs 达到数十亿甚至数万亿参数,传统的完全微调范式变得难以持续,因为其需要巨大的计算和存储需求。为了应对这一挑战,研究人员正在探索参数高效的微调(PEFT),旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉 PEFT 的综合概述和未来方向,对最新的进展进行了系统回顾。首先,我们提供了 PEFT 的正式定义,并讨论了模型预训练方法。然后,我们将现有方法分为三类:基于添加的、基于部分的和基于统一的。最后,我们介绍了常用的数据集和应用,并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。
Feb, 2024
我们研究了能够在计算和内存有限的情况下提供良好准确度的参数高效调整方法(PEFT),我们提出了一种新的 PEFT 方法称为 Robust Adaptation(RoSA),通过在一组固定的预训练权重之上联合训练低秩和高度稀疏的组件,有效地逼近全精调(FFT)解决方案的性能,在需要进行精细调整以获得良好性能的挑战性生成任务中,如小学数学和 SQL 查询生成,我们展示了 RoSA 优于 LoRA 和纯稀疏调整在相同参数预算下的性能。我们为 RoSA 提供系统支持,以在训练算法中补充,具体为稀疏 GPU 内核,实现内存和计算上的高效训练。我们的代码将在 https://github.com/IST-DASLab/RoSA 上提供。
Jan, 2024
本文提出了一种任务不可知的生成稀疏掩码的方法,仅使用预训练参数的振幅信息,可以显著提高性能和存储效率,并引入了一种新颖的适配器技术,可以直接应用于预训练参数,与全细调速度相同。
May, 2023
通过 Point-PEFT 框架,我们能够在只使用可训练参数的 5% 的情况下,实现优于完全微调的性能,充分展示了我们方法的高效性和有效性。
Oct, 2023
引入 X-PEFT,一种新的参数高效微调方法,通过微调极小的紧凑张量,作为二进制掩码来自适应地选择给定适配器,从而解决适配器数量线性增加的问题,相较于传统的适配器微调,在每个配置文件的内存需求减少了 10000 倍,而在 LaMP 和 GLUE 任务中表现出与传统适配器微调相当或超越的效果。
基于 LVM 的 Sparsity 和 Hybridity 特性,利用 SH-PEFT 方法在医学诊断中通过训练少量的权重,超越了全模型微调,并达到了同其他针对特定医学任务优化的模型可比较的性能,表明大型模型传输在医学诊断中具有巨大潜力。