LoRA-GA:基于梯度近似的低秩适应
通过设置适当的比率为LoRA适配器矩阵A和B设置不同的学习率,我们提出了一种名为LoRA$+$的算法,解决了LoRA的次优问题同时提高了性能(1-2%改进)和微调速度(最高约2倍速度提升)的问题。
Feb, 2024
LoRA是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned模型在多个任务上表现超过基准模型34个百分点和GPT-4 10个百分点;此外,他们开发了LoRAX多模型推理服务器,支持多个LoRA fine-tuned模型在单个GPU上运行,以展示使用多个专用LLM相对于单个通用LLM的质量和成本效益。
Apr, 2024
介绍了一种新的参数高效微调方法LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比LoRA和VeRA等最新方法更具参数效率同时保持竞争性能。
May, 2024
提出了一种名为Masked LoRA Experts (MLAE)的创新方法,通过参数高效微调、低秩矩阵的独立性增强和选择性激活等策略,以提高模型性能和知识多样性,从而实现了在VTAB-1k和FGVC基准测试上的最佳性能。
May, 2024
通过研究矩阵更新的内在维度,揭示了提高内在维度在降低资源消耗、优化性能方面的潜在好处,并通过正则化和梯度屏蔽方法设计了Regularized and Masked LoRA (RM-LoRA)方法,相对于原始的LoRA方法和其最新变体,在各种开源视觉和语言数据集上实现了卓越的泛化性能。
Jul, 2024
该研究解决了低秩适配(LoRA)在与完全微调相比时性能不足的问题。通过引入“等效梯度”的新概念,本文优化了LoRA的优化过程,使其在性能上更接近完全微调。实验结果表明,该方法有效缩小了LoRA与完全微调之间的性能差距。
Jul, 2024
本研究解决了大规模预训练模型微调的高昂计算和内存成本问题,提出了Flat-LoRA方法,旨在寻找位于全参数空间平坦区域的低秩适应。通过随机权重扰动与贝叶斯期望损失目标相结合,Flat-LoRA在自然语言处理和图像分类任务中表现出了卓越的性能,提高了微调模型的效率和泛化能力。
Sep, 2024
本研究针对预训练模型微调过程中的资源消耗问题,提出了一种名为NEAT的非线性参数高效适应方法。NEAT通过引入轻量级神经网络,能够有效捕捉复杂的非线性结构,实现参数更新,从而在多个视觉和文本任务上显著超越现有基准。此研究为提高大模型的应用效率和性能提供了新方案。
Oct, 2024
本研究针对现有微调方法效率低下的问题,提出了一种新的解释方差适应方法(EVA)。通过数据驱动的方式初始化新权重,EVA显著提升了收敛速度,并在多个任务上实现了最佳的平均得分。这一方法为基础模型的应用提供了更优的微调策略。
Oct, 2024