NEAT:预训练模型的非线性参数高效适应
本文提出了一种名为Dynamic Low-Rank Adaptation的技术,旨在通过训练预训练模型的适配器模块,为多个秩数建立动态搜索免费的模型,并证明该方法可以显著加快训练速度并在GLUE基准测试中取得一致的优秀表现。
Oct, 2022
本文提出了一个名为LoRAPrune的统一框架,旨在实现高性能的大规模预训练模型的高效微调和部署,其中使用了PEFT感知的剪枝标准和基于Low-Rank Adaption(LoRA)的梯度值和梯度的重要性估计,通过迭代剪枝过程以最大化PEFT的优点来删除冗余参数,实现了高精度和高压缩比的目标。实验结果表明,我们的方法在各个任务中都达到了最先进的结果,并且在VTAB-1k基准测试中,使用可训练参数的仅0.76%,产生的平均Top-1准确率比幅度和移动剪枝方法高5.7%和4.3%,在保留微调优点的同时实现与PEFT方法可比较的性能。
May, 2023
规模化预训练视觉模型(PVMs)在各种下游视觉任务中表现出很大的适应性。然而,随着最先进的PVMs达到数十亿甚至数万亿参数,传统的完全微调范式变得难以持续,因为其需要巨大的计算和存储需求。为了应对这一挑战,研究人员正在探索参数高效的微调(PEFT),旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉PEFT的综合概述和未来方向,对最新的进展进行了系统回顾。首先,我们提供了PEFT的正式定义,并讨论了模型预训练方法。然后,我们将现有方法分为三类:基于添加的、基于部分的和基于统一的。最后,我们介绍了常用的数据集和应用,并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。
Feb, 2024
介绍了一种新的参数高效微调方法LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比LoRA和VeRA等最新方法更具参数效率同时保持竞争性能。
May, 2024
LoRA Slow Cascade Learning (LoRASC) is an innovative technique that enhances the expressiveness and generalization capabilities of efficient fine-tuning through a cascaded learning strategy and a slow-fast update mechanism, improving model stability, mitigating overfitting, and enhancing OOD robustness.
Jul, 2024
LoRA-GA通过引入一种新的初始化方法,即梯度近似初始化(Low Rank Adaptation with Gradient Approximation),能够在保持效率和性能的同时达到与完全微调相当的收敛速度,进而显著提高模型性能和收敛速度。
Jul, 2024
本研究解决了低秩适应方法(LoRA)在高性能微调中的局限性,尤其是在计算和内存效率方面。提出的循环卷积适应方法(C$^3$A)不仅实现了更高的适应性,还在资源利用上表现优越,实验结果表明其在各种微调任务中持续超越LoRA及其变种。
Jul, 2024
本文提出了一种新的参数高效微调方法——嵌套低秩适应(NoRA),旨在解决传统低秩适应(LoRA)在微调过程中参数数量过多和未充分利用预训练权重的问题。NoRA通过采用双层嵌套结构和奇异值分解(SVD),显著减少了可调参数数量,并在多项任务评估中表现出相较于LoRA及其变种更优的性能,降低了微调的参数、训练时间和内存使用,同时性能提升了2.2%。
Aug, 2024
本研究解决了大规模预训练模型微调的高昂计算和内存成本问题,提出了Flat-LoRA方法,旨在寻找位于全参数空间平坦区域的低秩适应。通过随机权重扰动与贝叶斯期望损失目标相结合,Flat-LoRA在自然语言处理和图像分类任务中表现出了卓越的性能,提高了微调模型的效率和泛化能力。
Sep, 2024