PiSSA:大型语言模型的主要奇异值和奇异向量适应
介绍了一种新的参数高效微调方法 LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比 LoRA 和 VeRA 等最新方法更具参数效率同时保持竞争性能。
May, 2024
通过在参数更新中使用矩阵的稀疏组合,SVFT 方法在仅使用 0.006% 到 0.25% 的可训练参数时,能够恢复高达 96% 的全面微调性能,超过了仅使用 0.03% 到 0.8% 的可训练参数预算恢复的最高 85% 性能。
May, 2024
我们研究了能够在计算和内存有限的情况下提供良好准确度的参数高效调整方法(PEFT),我们提出了一种新的 PEFT 方法称为 Robust Adaptation(RoSA),通过在一组固定的预训练权重之上联合训练低秩和高度稀疏的组件,有效地逼近全精调(FFT)解决方案的性能,在需要进行精细调整以获得良好性能的挑战性生成任务中,如小学数学和 SQL 查询生成,我们展示了 RoSA 优于 LoRA 和纯稀疏调整在相同参数预算下的性能。我们为 RoSA 提供系统支持,以在训练算法中补充,具体为稀疏 GPU 内核,实现内存和计算上的高效训练。我们的代码将在 https://github.com/IST-DASLab/RoSA 上提供。
Jan, 2024
在本文中,我们提出了一种名为 MiLoRA 的简单而有效的 LLM 微调方法,仅更新权重矩阵的次要奇异部分,而保持主要奇异部分不变,以便在微调期间最大限度地利用较少优化的子空间来学习微调数据集。通过对常识推理、数学推理和指令跟踪基准的广泛实验,展示了我们方法的卓越性能。
Jun, 2024
提出 AdaLoRA 方法,以自适应方式在权重矩阵之间分配参数预算,以优化 NLP 的预先训练模型的参数更新问题,在多个自然语言处理任务中表现出显着优势。
Mar, 2023
我们提出了一种新颖的 PEFT 方法,名为 RoseLoRA,该方法通过行列稀疏的低秩自适应来识别和更新特定任务中最重要的参数,从而在保持效率的同时保留其他模型的知识。
Jun, 2024
提出了一种基于 Fisher 信息的 SVD 压缩方法(FWSVD),它可以通过加权计算参数的重要性来降低模型压缩中优化目标与模型任务的目标不匹配的问题,该方法适用于任务特定模型并且可以取得比其他紧凑模型策略更好的性能和更高的压缩率。
Jun, 2022
综合奇异值分解(Singular Value Decomposition)与低秩适应(Low-Rank Adaptation)参数更新策略,提高图像生成模型的微调效率和输出质量,改善模型的泛化能力和创造性灵活性,同时在受限资源条件下保持良好性能。
May, 2024
通过选择稀疏子矩阵以减少计算资源开销和内存消耗,我们介绍了一种名为 Sparse Matrix Tuning (SMT) 的方法,用于填补参数有效微调(PEFT)与完全微调(FT)之间的性能差距,并在多个任务中展示了其超越了其他 PEFT 的基准方法(如 LoRA 和 DoRA),同时与 FT 相比,GPU 内存占用减少了 67%。
May, 2024
通过光谱分解低维适应性的大型模型微调,LaMDA 可以在减少可训练参数和峰值 GPU 内存使用的同时,达到与现有替代方案相当甚至更好的性能。
Jun, 2024