VB-LoRA:基于向量库的极度参数高效的微调
介绍了一种新的参数高效微调方法 LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比 LoRA 和 VeRA 等最新方法更具参数效率同时保持竞争性能。
May, 2024
使用单一配对低秩矩阵并学习小的缩放向量,将低秩适应 (LoRA) 方法的可训练参数减少至原有的十分之一,且保持相同性能,用于缓解大型语言模型训练过程中的存储挑战。
Oct, 2023
在这项研究中,我们提出了一种基于贝叶斯角度的矩阵分解和量化方法,名为 B-LoRA,通过对学习到的低秩矩阵的量化级别和秩值引入先验分布,使其能够在特定任务上对预训练模型进行精细调节,找到每个低秩矩阵的最佳秩值和量化级别。通过在 GLUE 基准上对预训练的 DeBERTaV3 模型进行验证,并将其与相关基准进行比较,我们展示了该方法如何学习到最优秩的量化矩阵,相比基线方法,B-LoRA 在性能上与基线相当或更好,并且减少了大约 70% 的总比特操作量。
Jun, 2024
提出了一种增量参数分配方法 IncreLoRA,通过根据每个模块的重要性得分,在训练期间自适应地添加可训练参数,以应对有限训练条件下参数剪枝的限制,实现更高的参数效率,并在低资源设置下显著优于基准方法。
Aug, 2023
本研究探讨了一种改进的 LoRA 优化方法,称为 PeriodicLoRA(PLoRA),通过多次积累低秩更新矩阵来提高更新秩,并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明,PLoRA 具有更强的学习能力,最高可达到 LoRA 学习能力的 1.8 倍,但不增加内存使用。
Feb, 2024
通过实施共享低秩适应(ShareLoRA)的方式,本研究介绍了一种优化预训练语言模型(PLMs)的参数有效微调(PEFT)的方法。在不同层级上策略性地部署 ShareLoRA,并对 self-attention 层的 Query、Key 和 Value 组件进行适应性调整,我们实现了训练参数数量和内存使用的大幅减少。同时,ShareLoRA 不仅在 RoBERTa、GPT-2、LLaMA 和 LLaMA2 等多种模型上保持了模型性能,还在分类和生成任务中表现出鲁棒性。相比标准的 LoRA 应用,它表现出卓越的迁移学习能力,并通过在层级间共享权重来减轻过拟合。我们的发现证明,ShareLoRA 能够有效提升参数效率,同时在不同的语言模型架构上保证可扩展和高质量的性能。
Jun, 2024
该论文介绍了一种基于大规模预训练语言模型 (LPLMs) 的微调技术,通过矩阵变换的重新参数化方法 (MTLoRA) 在下游任务中提高模型性能,取得了显著的提升。
Mar, 2024
通过使用合成数据集,我们提出了一种新的方法来无损地将低秩适配器模块从一个基准模型转移到另一个基准模型,这项方法能够在不同的基准模型族之间,甚至不同的参数优化方法之间,在各种任务上实现低秩适配器的转移。
May, 2024
我们提出了一种新颖的 PEFT 方法,名为 RoseLoRA,该方法通过行列稀疏的低秩自适应来识别和更新特定任务中最重要的参数,从而在保持效率的同时保留其他模型的知识。
Jun, 2024
LoRA 是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点;此外,他们开发了 LoRAX 多模型推理服务器,支持多个 LoRA fine-tuned 模型在单个 GPU 上运行,以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。
Apr, 2024