参数高效微调的结构化无限秩矩阵

Jun, 2024

参数高效微调的结构化无限秩矩阵

Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning

Arijit Sehanobish, Avinava Dubey, Krzysztof Choromanski, Somnath Basu Roy Chowdhury, Deepali Jain...

TL;DR使用结构化无限秩矩阵 (SURM) 作为适配器和 LoRA 的替代方法的参数高效微调 (PEFT) 可以在减少参数数量的同时显著提高图像分类任务和 GLUE 基准上的质量。

Abstract

Recent efforts to scale transformer models have demonstrated rapid progress across a wide range of tasks (Wei et al., 2022). However, fine-tuning these models for downstream tasks is expensive due to their large parameter counts. →

transformer models parameter-efficient fine-tuning structured unrestricted-rank matrices adapters glue benchmark

发现论文，激发创造

大型语言模型微调中的稀疏矩阵

通过选择稀疏子矩阵以减少计算资源开销和内存消耗，我们介绍了一种名为 Sparse Matrix Tuning (SMT) 的方法，用于填补参数有效微调（PEFT）与完全微调（FT）之间的性能差距，并在多个任务中展示了其超越了其他 PEFT 的基准方法（如 LoRA 和 DoRA），同时与 FT 相比，GPU 内存占用减少了 67%。

May, 2024

用于参数高效微调的 Mini-Ensemble 低秩适配器

MELoRA 是一种采用较少可训练参数但保持较高秩的迷你低秩适配器，用于针对预训练大型语言模型进行性能优化的方法。实验证明，在自然语言理解和指令跟随任务上，相较于低秩适配器 LoRA，MELoRA 在拥有 8 倍较少可训练参数时表现更好，而在指令跟随任务上拥有 36 倍较少可训练参数时也表现更好，证明了 MELoRA 的有效性。

Feb, 2024

RoSA：鲁棒适应实现准确的参数高效微调

我们研究了能够在计算和内存有限的情况下提供良好准确度的参数高效调整方法（PEFT），我们提出了一种新的 PEFT 方法称为 Robust Adaptation（RoSA），通过在一组固定的预训练权重之上联合训练低秩和高度稀疏的组件，有效地逼近全精调（FFT）解决方案的性能，在需要进行精细调整以获得良好性能的挑战性生成任务中，如小学数学和 SQL 查询生成，我们展示了 RoSA 优于 LoRA 和纯稀疏调整在相同参数预算下的性能。我们为 RoSA 提供系统支持，以在训练算法中补充，具体为稀疏 GPU 内核，实现内存和计算上的高效训练。我们的代码将在 https://github.com/IST-DASLab/RoSA 上提供。

Jan, 2024

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023

多任务多语言模型自适应与特征化低秩混合

针对多种多语言下游任务中，将预训练的大语言模型（LLM）进行调整以适应不同语言的计算成本过高的问题，本研究提出了一种参数高效的微调方法，即 Featurized Low-rank Mixtures（FLix），通过为每个数据集分配独立的低秩权重更新参数，实现了对多样的数据集混合的适应并对未见数据集表现更好。实验证明，FLix 在使用不同训练数据混合的有监督学习和零样本设置中，对多种任务都取得了显著的改进。

Feb, 2024

DoRA: 通过动态排名分布增强参数效率微调

本研究介绍了动态低秩适应（DoRA）方法，该方法在训练过程中将高秩的低秩层分解为结构化的单秩元件，允许根据任务重要性动态修剪参数预算，以充分利用有限的参数预算，并且实验证明 DoRA 方法在与 LoRA 和完全模型微调相比具有竞争性的性能和优于各种强基线模型的结果。

May, 2024

RoseLoRA: 面向知识编辑和微调的稀疏低秩预训练语言模型的行列稀疏低秩适应

我们提出了一种新颖的 PEFT 方法，名为 RoseLoRA，该方法通过行列稀疏的低秩自适应来识别和更新特定任务中最重要的参数，从而在保持效率的同时保留其他模型的知识。

Jun, 2024

MLAE: 参数高效微调的屏蔽 LoRA 专家

提出了一种名为 Masked LoRA Experts (MLAE) 的创新方法，通过参数高效微调、低秩矩阵的独立性增强和选择性激活等策略，以提高模型性能和知识多样性，从而实现了在 VTAB-1k 和 FGVC 基准测试上的最佳性能。

May, 2024

低资源语言翻译的参数高效微调解锁

参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要，通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分，我们进行了具备不同资源和域的全面实证实验，评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明，6 种参数高效微调架构在域内和域外测试中均超过了基准线，其中 Houlsby+Inversion 适配器表现最佳，验证了参数高效微调方法的有效性。

Apr, 2024

PRILoRA：修剪和增大秩的低秩适应

PRILoRA 通过在线性分配不同的秩给每一层并在训练过程中进行剪枝，考虑到权重的临时大小和给定层的输入的累积统计信息，验证了其在八个 GLUE 基准测试中的有效性，取得了最新的技术成果。

Jan, 2024