参数高效技术与完全微调之间的比较：多语言新闻文章分类案例研究

Aug, 2023

参数高效技术与完全微调之间的比较：多语言新闻文章分类案例研究

Comparison between parameter-efficient techniques and full fine-tuning: A case study on multilingual news article classification

PDF

Olesya Razuvayevskaya, Ben Wu, Joao A. Leite, Freddy Heppell, Ivan Srba...

TL;DR适配器和低秩适应（LoRA）是旨在使语言模型训练更加高效的参数节约微调技术。本研究通过调查这些技术在多语言文本分类任务中（流派、框架和说服技巧检测；具有不同输入长度、预测类别数量和分类难度；其中一些任务数据有限）与全面微调相比，对分类性能和计算成本的影响，补充了现有研究。此外，我们对不同训练场景（在原始多语言数据上训练；在英文翻译上训练；以及在部分仅英文数据上）和不同语言进行了彻底分析，为参数节约微调技术的适用性，特别是对复杂的多语言和多标签分类任务提供了有价值的见解。

Abstract

adapters and low-rank adaptation (LoRA) are parameter-efficient fine-tuning techniques designed to make the training of language models mo

adapters low-rank adaptation parameter-efficient fine-tuning multilingual text classification classification performance

发现论文，激发创造

参数高效的多语言摘要：实证研究

本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力，研究发现 LoRA 在低数据情况和跨语言转移中表现出色，当模型增大时，LoRA 和完全微调之间的性能差距减小，同时，继续训练 LoRA 获得了最佳的少样本跨语言转移表现。

Nov, 2023

基于完整参数和 LoRA 的微调在指令遵循大型语言模型的比较研究

本研究通过实验比较全参数微调和 LoRA 微调方法，使用 LLaMA 作为基础模型，发现基础模型选择、训练数据集规模、可训练参数数量和模型训练成本都是重要因素。该实验结论可以为训练大型语言模型提供启示，特别是在中文领域，帮助研究人员找到更好的训练成本和模型性能的平衡策略。为了方便本文结果的复现，我们将公开数据集、模型和代码。

Apr, 2023

用于参数高效微调的 Mini-Ensemble 低秩适配器

MELoRA 是一种采用较少可训练参数但保持较高秩的迷你低秩适配器，用于针对预训练大型语言模型进行性能优化的方法。实验证明，在自然语言理解和指令跟随任务上，相较于低秩适配器 LoRA，MELoRA 在拥有 8 倍较少可训练参数时表现更好，而在指令跟随任务上拥有 36 倍较少可训练参数时也表现更好，证明了 MELoRA 的有效性。

Feb, 2024

LoRA Land: 310 微调 LLM 模型媲美 GPT-4 的技术报告

LoRA 是一种使用较少参数和内存的训练方法，研究表明，在低秩适配器的支持下，LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点；此外，他们开发了 LoRAX 多模型推理服务器，支持多个 LoRA fine-tuned 模型在单个 GPU 上运行，以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。

Apr, 2024

LoRA 学习更少，遗忘更少

通过在编程和数学这两个目标领域上比较 Low-Rank Adaptation (LoRA) 和全精调 (full finetuning) 的性能，我们发现在大多数情况下，LoRA 的表现明显逊于全精调；然而，LoRA 展现了一种理想的正则化形式，并且可以更好地保持基础模型在目标领域之外的任务表现，同时比传统技术如权重衰减和 dropout 提供了更强的正则化效果，并有助于生成更多样化的结果。我们还发现全精调学习到的扰动比典型 LoRA 配置的秩高 10-100 倍，这可能解释了一些报告中的差距。最后，我们提出了在使用 LoRA 进行精调时的最佳实践建议。

May, 2024

ALoRA: 为大型语言模型调整低秩适应

通过 AB-LoRA 方法，逐步修剪过多和负面影响的 LoRA 排名，并将修剪后的 LoRA 预算分配给需要更高排名的重要 Transformer 模块，实现了分配低秩适应 (ALoRA) 的灵活下游任务适应方法。实验结果表明，ALoRA 方法在可调参数相当的情况下优于最近的基准模型。

Mar, 2024

低秩适应的表达能力

使用低秩适应（LoRA）参数有效的微调方法，通过分析其表达能力和近似误差，证明了 LoRA 方法能够将预训练模型适应到较小目标模型，并适用于全连接神经网络和 Transformer 网络。

Oct, 2023

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021

解码低秩适配器中的全球协同效应

我们介绍了 HeteroLoRA，这是一种轻量级的搜索算法，通过利用零成本代理在模型中分配有限的 LoRA 可训练参数，以提高微调性能，并在更具挑战性的搜索空间中展示了 HeteroLoRA 的有效性。

Jun, 2024

大语言模型的贝叶斯低秩适应

使用 Laplace-LoRA 方法，对参数高效微调的大型语言模型进行贝叶斯方法，提高模型的校准性。

Aug, 2023