参数高效微调的结构化无限秩矩阵
通过选择稀疏子矩阵以减少计算资源开销和内存消耗,我们介绍了一种名为 Sparse Matrix Tuning (SMT) 的方法,用于填补参数有效微调(PEFT)与完全微调(FT)之间的性能差距,并在多个任务中展示了其超越了其他 PEFT 的基准方法(如 LoRA 和 DoRA),同时与 FT 相比,GPU 内存占用减少了 67%。
May, 2024
MELoRA 是一种采用较少可训练参数但保持较高秩的迷你低秩适配器,用于针对预训练大型语言模型进行性能优化的方法。实验证明,在自然语言理解和指令跟随任务上,相较于低秩适配器 LoRA,MELoRA 在拥有 8 倍较少可训练参数时表现更好,而在指令跟随任务上拥有 36 倍较少可训练参数时也表现更好,证明了 MELoRA 的有效性。
Feb, 2024
我们研究了能够在计算和内存有限的情况下提供良好准确度的参数高效调整方法(PEFT),我们提出了一种新的 PEFT 方法称为 Robust Adaptation(RoSA),通过在一组固定的预训练权重之上联合训练低秩和高度稀疏的组件,有效地逼近全精调(FFT)解决方案的性能,在需要进行精细调整以获得良好性能的挑战性生成任务中,如小学数学和 SQL 查询生成,我们展示了 RoSA 优于 LoRA 和纯稀疏调整在相同参数预算下的性能。我们为 RoSA 提供系统支持,以在训练算法中补充,具体为稀疏 GPU 内核,实现内存和计算上的高效训练。我们的代码将在 https://github.com/IST-DASLab/RoSA 上提供。
Jan, 2024
针对多种多语言下游任务中,将预训练的大语言模型(LLM)进行调整以适应不同语言的计算成本过高的问题,本研究提出了一种参数高效的微调方法,即 Featurized Low-rank Mixtures(FLix),通过为每个数据集分配独立的低秩权重更新参数,实现了对多样的数据集混合的适应并对未见数据集表现更好。实验证明,FLix 在使用不同训练数据混合的有监督学习和零样本设置中,对多种任务都取得了显著的改进。
Feb, 2024
本研究介绍了动态低秩适应(DoRA)方法,该方法在训练过程中将高秩的低秩层分解为结构化的单秩元件,允许根据任务重要性动态修剪参数预算,以充分利用有限的参数预算,并且实验证明 DoRA 方法在与 LoRA 和完全模型微调相比具有竞争性的性能和优于各种强基线模型的结果。
May, 2024
我们提出了一种新颖的 PEFT 方法,名为 RoseLoRA,该方法通过行列稀疏的低秩自适应来识别和更新特定任务中最重要的参数,从而在保持效率的同时保留其他模型的知识。
Jun, 2024
提出了一种名为 Masked LoRA Experts (MLAE) 的创新方法,通过参数高效微调、低秩矩阵的独立性增强和选择性激活等策略,以提高模型性能和知识多样性,从而实现了在 VTAB-1k 和 FGVC 基准测试上的最佳性能。
May, 2024
参数高效微调方法在适应多样化任务的大规模预训练语言模型中变得越来越重要,通过在资源有限的语言机器翻译中提高翻译准确性来实现适应性和计算效率的平衡。通过使用 SacréBLEU 评分,我们进行了具备不同资源和域的全面实证实验,评估了共计 15 种架构的 8 种参数高效微调方法的性能。结果表明,6 种参数高效微调架构在域内和域外测试中均超过了基准线,其中 Houlsby+Inversion 适配器表现最佳,验证了参数高效微调方法的有效性。
Apr, 2024
PRILoRA 通过在线性分配不同的秩给每一层并在训练过程中进行剪枝,考虑到权重的临时大小和给定层的输入的累积统计信息,验证了其在八个 GLUE 基准测试中的有效性,取得了最新的技术成果。
Jan, 2024