状态空间模型的参数高效微调
本文主要介绍了大型语言模型的fine-tuning方法——parameter-efficient fine-tuning(PEFT),并通过对FLAN-T5模型的综合测试和分析,提出了选择fine-tuning技术的最佳方法,重点考虑任务类型和数据可用性,同时指出了PEFT方法在数据过少的情况下的收敛速度慢的问题,提出了更好的model optimization方法。
Apr, 2023
通过修改Low-Rank Adapters方法中的缩放因子,我们提出了一种称为rank-stabilized LoRA (rsLoRA)的方法,可以在训练期间用更多的计算资源来换取更好的fine-tuning性能,并且在推理计算成本不变的情况下实现了fine-tuning计算性能的折中。
Nov, 2023
本研究探讨了一种改进的LoRA优化方法,称为PeriodicLoRA(PLoRA),通过多次积累低秩更新矩阵来提高更新秩,并引入一种基于动量的卸载策略以减轻训练不稳定性。实验结果表明,PLoRA具有更强的学习能力,最高可达到LoRA学习能力的1.8倍,但不增加内存使用。
Feb, 2024
LoRA是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned模型在多个任务上表现超过基准模型34个百分点和GPT-4 10个百分点;此外,他们开发了LoRAX多模型推理服务器,支持多个LoRA fine-tuned模型在单个GPU上运行,以展示使用多个专用LLM相对于单个通用LLM的质量和成本效益。
Apr, 2024
该研究探讨了大型语言模型的细调策略,发现可替代方法在领域外泛化方面与标准方法相媲美,强调了对有效提示的需求,并针对可用资源和任务适应性进行合适的细调方法选择。
May, 2024
介绍了一种新的参数高效微调方法LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比LoRA和VeRA等最新方法更具参数效率同时保持竞争性能。
May, 2024
在这项研究中,我们提出了一种基于贝叶斯角度的矩阵分解和量化方法,名为B-LoRA,通过对学习到的低秩矩阵的量化级别和秩值引入先验分布,使其能够在特定任务上对预训练模型进行精细调节,找到每个低秩矩阵的最佳秩值和量化级别。通过在GLUE基准上对预训练的DeBERTaV3模型进行验证,并将其与相关基准进行比较,我们展示了该方法如何学习到最优秩的量化矩阵,相比基线方法,B-LoRA在性能上与基线相当或更好,并且减少了大约70%的总比特操作量。
Jun, 2024
本研究解决了在复杂下游任务中,单一尺度更新参数可能不是最佳选择的问题。通过扩展低秩适应方法(LoRA)到多尺度,提出了LoRA$^2$,并结合正交投影理论和改进的重要性评分算法,显著减少了训练参数数量,提升了适应性和性能。研究结果表明,LoRA$^2$在微调中仅需0.72%的参数,仍能实现与基线相当的性能,展现了其高效性和潜在影响。
Aug, 2024
本研究解决了大规模语言模型在微调时资源消耗过高的问题,提出了一种新框架来定义任务特定方向并探讨其实用性挑战。新方法LoRA-Dash通过优化这些方向,显著提高了模型在特定任务上的表现,实验结果验证了其有效性。
Sep, 2024