关于大型模型的低秩适应的公平性
本文提出了一种低秩适应方法(Low-Rank Adaptation,简称LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和GPU内存占用过高的问题。
Jun, 2021
LoRA-FA采用低内存量的权重更新方式,用于大型语言模型的微调,具有接近完整参数微调的准确性,降低了内存使用,技术优化了LoRA。
Aug, 2023
在这项研究中,我们以性别偏见为案例研究,通过量化预训练和微调对三类视觉与语言模型中的偏见放大进行分析,研究了这两个学习阶段之间的联系,并评估了偏见放大对模型性能的影响。总体来说,我们发现预训练和微调中的偏见放大是相互独立的。接着,我们研究了对性别中性数据的持续预训练对VQAv2和检索任务的影响,发现这种方法可以减少群体间的差异并提升公平性,而不会显著影响任务性能。
Oct, 2023
通过设置适当的比率为LoRA适配器矩阵A和B设置不同的学习率,我们提出了一种名为LoRA$+$的算法,解决了LoRA的次优问题同时提高了性能(1-2%改进)和微调速度(最高约2倍速度提升)的问题。
Feb, 2024
LoRA是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned模型在多个任务上表现超过基准模型34个百分点和GPT-4 10个百分点;此外,他们开发了LoRAX多模型推理服务器,支持多个LoRA fine-tuned模型在单个GPU上运行,以展示使用多个专用LLM相对于单个通用LLM的质量和成本效益。
Apr, 2024
研究表明低秩逼近Fine-Tuning在捕捉Fine-Tuning数据集从初始预训练数据分布中的转变方面具有不足之处,会产生不可忽视的副作用,包括在针对有毒模型和提供公平模型的情景下意外保留不合理的偏差和有毒行为。此外,对于顺序决策任务,需要进行仔细评估以促进负责任的大型语言模型开发。
May, 2024
LoRA-GA通过引入一种新的初始化方法,即梯度近似初始化(Low Rank Adaptation with Gradient Approximation),能够在保持效率和性能的同时达到与完全微调相当的收敛速度,进而显著提高模型性能和收敛速度。
Jul, 2024
该研究针对大型语言模型在下游应用中面临的偏见传播问题,提出了一种新的参数高效微调方法BA-LoRA。通过引入一致性、可多样性和奇异向量分解的正则化项,BA-LoRA在多种自然语言理解和生成任务中表现优于现有的LoRA及其先进变体,有效减轻了预训练数据带来的偏见影响。
Aug, 2024
本研究针对当前大规模语言和多模态模型在下游任务适应中的效率瓶颈,提出了一种新的模型分歧技术AdaRank,用于预测模块的相对秩。实验证明,AdaRank在未见数据上的泛化能力显著优于统一秩的方法,且无需对预训练和适应阶段进行额外修改,从而提高了适应精度和性能。
Aug, 2024