本文提出了一种低秩适应方法(Low-Rank Adaptation,简称 LoRA),通过将可训练秩分解矩阵注入变压器结构的每个层中,极大地减少了下游任务中的可训练参数,并且性能与微调相当或更好,同时具有更高的训练吞吐量和没有额外推理延迟,这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。
Jun, 2021
提出了一种基于低秩适应(LoRA)的神经语言建模系统,用于语音识别输出的再评分。通过低秩分解的方法,使用仅占预训练参数 0.08% 的插入矩阵进行训练和领域适应,实现了 Rescore-BERT(LoRB)架构,并在 LibriSpeech 和内部数据集上减少了 5.4 至 3.6 倍的训练时间。
Sep, 2023
本研究提出了一种针对新型虚假语音的低秩适应矩阵训练方法,在保持现有模型识别已知虚假语音准确率的同时,减小了存储内存需求,降低了错误率。
Jun, 2023
使用低秩适应(LoRA)参数有效的微调方法,通过分析其表达能力和近似误差,证明了 LoRA 方法能够将预训练模型适应到较小目标模型,并适用于全连接神经网络和 Transformer 网络。
Oct, 2023
通过引入名为 Fast LoRA(FLoRA)的框架,我们可以有效地对多样化和全球用户群体的实时请求进行批处理,通过将每个输入示例与其独特的低秩适应权重关联起来,实现个性化的任务特定适应,从而缓解了 Low-Rank Adaptation (LoRA) 在处理多个任务特定适配器时的性能瓶颈。我们在包括 8 种语言的 MultiPL-E 代码生成基准和 6 种语言的多语种语音识别任务上,通过实证展示了 FLoRA 保持 LoRA 性能优点的竞争结果。
Dec, 2023
介绍了一种新的参数高效微调方法 LoRA-XS,利用奇异值分解(SVD)在参数高效微调方面取得显著的结果,特别是在较大模型上,比 LoRA 和 VeRA 等最新方法更具参数效率同时保持竞争性能。
May, 2024
本文提出了一种名为 Dynamic Low-Rank Adaptation 的技术,旨在通过训练预训练模型的适配器模块,为多个秩数建立动态搜索免费的模型,并证明该方法可以显著加快训练速度并在 GLUE 基准测试中取得一致的优秀表现。
Oct, 2022
使用低秩适应(LoRA)和预训练语言模型(PLMs)的方法已成为一种流行的资源高效性建模方法,本研究首先探讨了通过引入各种 LoRA 培训策略来提高模型性能,相对词错误率减少了 3.50%和 3.67%,并且进一步检验了 LoRA 基于二次通过语音识别模型的稳定性和对输入扰动的鲁棒性。
Jan, 2024
通过 AB-LoRA 方法,逐步修剪过多和负面影响的 LoRA 排名,并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块,实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明,ALoRA 方法在可调参数相当的情况下优于最近的基准模型。
Mar, 2024
逐步压缩低秩适应(PC-LoRA)方法通过低秩适应同时进行模型压缩和微调,最终仅保留低秩适配器以取代预训练权重,实现了参数和计算量的压缩。
Jun, 2024