PiSSA：大型语言模型的主要奇异值和奇异向量适应

Apr, 2024

PiSSA：大型语言模型的主要奇异值和奇异向量适应

PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models

Fanxu Meng, Zhaohui Wang, Muhan Zhang

TL;DR通过使用降维方法和奇异值分解（SVD）初始化，PiSSA 方法能够在较短的时间内收敛并获得比 LoRA 更好的性能。

Abstract

As the parameters of llms expand, the computational cost of fine-tuning the entire model becomes prohibitive. To address this challenge, we introduce a peft method, Principal Singular values and Singular vectors

llms peft pissa svd lora

发现论文，激发创造

LoRA-XS：低秩适应与极小参数

介绍了一种新的参数高效微调方法 LoRA-XS，利用奇异值分解（SVD）在参数高效微调方面取得显著的结果，特别是在较大模型上，比 LoRA 和 VeRA 等最新方法更具参数效率同时保持竞争性能。

May, 2024

SVFT：具有奇异向量的参数高效微调

通过在参数更新中使用矩阵的稀疏组合，SVFT 方法在仅使用 0.006% 到 0.25% 的可训练参数时，能够恢复高达 96% 的全面微调性能，超过了仅使用 0.03% 到 0.8% 的可训练参数预算恢复的最高 85% 性能。

May, 2024

RoSA：鲁棒适应实现准确的参数高效微调

我们研究了能够在计算和内存有限的情况下提供良好准确度的参数高效调整方法（PEFT），我们提出了一种新的 PEFT 方法称为 Robust Adaptation（RoSA），通过在一组固定的预训练权重之上联合训练低秩和高度稀疏的组件，有效地逼近全精调（FFT）解决方案的性能，在需要进行精细调整以获得良好性能的挑战性生成任务中，如小学数学和 SQL 查询生成，我们展示了 RoSA 优于 LoRA 和纯稀疏调整在相同参数预算下的性能。我们为 RoSA 提供系统支持，以在训练算法中补充，具体为稀疏 GPU 内核，实现内存和计算上的高效训练。我们的代码将在 https://github.com/IST-DASLab/RoSA 上提供。

Jan, 2024

MiLoRA: 利用次要奇异分量进行参数高效的 LLM 微调

在本文中，我们提出了一种名为 MiLoRA 的简单而有效的 LLM 微调方法，仅更新权重矩阵的次要奇异部分，而保持主要奇异部分不变，以便在微调期间最大限度地利用较少优化的子空间来学习微调数据集。通过对常识推理、数学推理和指令跟踪基准的广泛实验，展示了我们方法的卓越性能。

Jun, 2024

自适应预算分配用于参数高效微调

提出 AdaLoRA 方法，以自适应方式在权重矩阵之间分配参数预算，以优化 NLP 的预先训练模型的参数更新问题，在多个自然语言处理任务中表现出显着优势。

Mar, 2023

RoseLoRA: 面向知识编辑和微调的稀疏低秩预训练语言模型的行列稀疏低秩适应

我们提出了一种新颖的 PEFT 方法，名为 RoseLoRA，该方法通过行列稀疏的低秩自适应来识别和更新特定任务中最重要的参数，从而在保持效率的同时保留其他模型的知识。

Jun, 2024

加权低秩分解语言模型压缩

提出了一种基于 Fisher 信息的 SVD 压缩方法（FWSVD），它可以通过加权计算参数的重要性来降低模型压缩中优化目标与模型任务的目标不匹配的问题，该方法适用于任务特定模型并且可以取得比其他紧凑模型策略更好的性能和更高的压缩率。

Jun, 2022

TriLoRA：在文本到图像生成中集成 SVD 的高级风格个性化

综合奇异值分解（Singular Value Decomposition）与低秩适应（Low-Rank Adaptation）参数更新策略，提高图像生成模型的微调效率和输出质量，改善模型的泛化能力和创造性灵活性，同时在受限资源条件下保持良好性能。

May, 2024

大型语言模型微调中的稀疏矩阵

通过选择稀疏子矩阵以减少计算资源开销和内存消耗，我们介绍了一种名为 Sparse Matrix Tuning (SMT) 的方法，用于填补参数有效微调（PEFT）与完全微调（FT）之间的性能差距，并在多个任务中展示了其超越了其他 PEFT 的基准方法（如 LoRA 和 DoRA），同时与 FT 相比，GPU 内存占用减少了 67%。

May, 2024

LaMDA：通过频谱分解的低维度调整进行大模型微调

通过光谱分解低维适应性的大型模型微调，LaMDA 可以在减少可训练参数和峰值 GPU 内存使用的同时，达到与现有替代方案相当甚至更好的性能。

Jun, 2024