参数高效的多语言摘要:实证研究
适配器和低秩适应(LoRA)是旨在使语言模型训练更加高效的参数节约微调技术。本研究通过调查这些技术在多语言文本分类任务中(流派、框架和说服技巧检测;具有不同输入长度、预测类别数量和分类难度;其中一些任务数据有限)与全面微调相比,对分类性能和计算成本的影响,补充了现有研究。此外,我们对不同训练场景(在原始多语言数据上训练;在英文翻译上训练;以及在部分仅英文数据上)和不同语言进行了彻底分析,为参数节约微调技术的适用性,特别是对复杂的多语言和多标签分类任务提供了有价值的见解。
Aug, 2023
本文介绍了一种名为 “Low Rank Adaptation” 的 PEFT 方法,并在临床对话摘要任务中展示了其评估结果,这种方法与端到端的调优效果相当。
Jul, 2023
本研究通过实验比较全参数微调和 LoRA 微调方法,使用 LLaMA 作为基础模型,发现基础模型选择、训练数据集规模、可训练参数数量和模型训练成本都是重要因素。该实验结论可以为训练大型语言模型提供启示,特别是在中文领域,帮助研究人员找到更好的训练成本和模型性能的平衡策略。为了方便本文结果的复现,我们将公开数据集、模型和代码。
Apr, 2023
LoRA 是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点;此外,他们开发了 LoRAX 多模型推理服务器,支持多个 LoRA fine-tuned 模型在单个 GPU 上运行,以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。
Apr, 2024
通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能,我们发现在大多数情况下,LoRA 的表现明显逊于全精调;然而,LoRA 展现了一种理想的正则化形式,并且可以更好地保持基础模型在目标领域之外的任务表现,同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果,并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍,这可能解释了一些报告中的差距。最后,我们提出了在使用 LoRA 进行精调时的最佳实践建议。
May, 2024
通过 AB-LoRA 方法,逐步修剪过多和负面影响的 LoRA 排名,并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块,实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明,ALoRA 方法在可调参数相当的情况下优于最近的基准模型。
Mar, 2024
通过实施共享低秩适应(ShareLoRA)的方式,本研究介绍了一种优化预训练语言模型(PLMs)的参数有效微调(PEFT)的方法。在不同层级上策略性地部署 ShareLoRA,并对 self-attention 层的 Query、Key 和 Value 组件进行适应性调整,我们实现了训练参数数量和内存使用的大幅减少。同时,ShareLoRA 不仅在 RoBERTa、GPT-2、LLaMA 和 LLaMA2 等多种模型上保持了模型性能,还在分类和生成任务中表现出鲁棒性。相比标准的 LoRA 应用,它表现出卓越的迁移学习能力,并通过在层级间共享权重来减轻过拟合。我们的发现证明,ShareLoRA 能够有效提升参数效率,同时在不同的语言模型架构上保证可扩展和高质量的性能。
Jun, 2024
提出了一个称为 SuperLoRA 的广义框架,将不同的 LoRA 变体统一并扩展,通过引入分组、折叠、洗牌、投影和张量分解等方法,SuperLoRA 相对于其他 LoRA 变体具有更高的灵活性,在转移学习任务中表现出卓越的性能,尤其在极低参数的情况下表现出色。
Mar, 2024
通过对视觉和语言领域的分类和生成任务进行广泛实验,我们发现低秩适应(LoRA)在许多情况下具有与基准模型或其完整微调基准相当甚至更好的公平性,但也引发了适当任务设计和模型成员偏差评估等公平性评估方面的复杂性。
May, 2024
MELoRA 是一种采用较少可训练参数但保持较高秩的迷你低秩适配器,用于针对预训练大型语言模型进行性能优化的方法。实验证明,在自然语言理解和指令跟随任务上,相较于低秩适配器 LoRA,MELoRA 在拥有 8 倍较少可训练参数时表现更好,而在指令跟随任务上拥有 36 倍较少可训练参数时也表现更好,证明了 MELoRA 的有效性。
Feb, 2024