基于矩阵变换的低秩适应（MTLoRA）：一种启发式的参数高效微调方法

Mar, 2024

基于矩阵变换的低秩适应（MTLoRA）：一种启发式的参数高效微调方法

Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A Brain-Inspired Method for Parameter-Efficient Fine-Tuning

Yao Liang, Yuwei Wang, Yi Zeng

TL;DR该论文介绍了一种基于大规模预训练语言模型 (LPLMs) 的微调技术，通过矩阵变换的重新参数化方法 (MTLoRA) 在下游任务中提高模型性能，取得了显著的提升。

Abstract

fine-tuning techniques based on large pretrained language models (LPLMs) have been proven to significantly enhance model performance on a variety of →

fine-tuning large pretrained language models lora matrix-transformation downstream tasks

发现论文，激发创造

MTLoRA：一种用于高效多任务学习的低秩适应方法

本文介绍了一种新的多任务学习（MTL）模型的参数有效训练框架 MTLoRA，该框架通过使用任务无关和任务特定的低秩适应模块，在 MTL 微调中有效地解离参数空间，从而使模型能够熟练处理 MTL 环境中的任务专业化和交互，并且在 PASCAL 数据集上的广泛实验表明，MTLoRA 在减少可训练参数数量的同时，比对 MTL 模型进行全面微调在下游任务上具有更高的准确性，同时在准确性和效率方面优于当前最先进的参数有效训练方法。

Mar, 2024

OLoRA: 正交低秩对大型语言模型的适应

OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模任务上表现出更好的性能，为 LLM 的精细调整提供了更高效和可访问性的可能，从而促进自然语言应用的广泛采用和创新。

Jun, 2024

MoRA: 参数高效微调的高阶更新

为了解决使用低秩更新机制限制了大型语言模型学习和记忆新知识的问题，本文提出了一种名为 MoRA 的新方法，通过引入相应的非参数操作来降低输入维度并增加输出维度，从而实现了高秩更新，同时保持了可训练参数的数量，并在五个任务中对该方法进行了全面评估，结果显示我们的方法在占用内存的任务上表现优于 LoRA，并在其他任务上达到了可比较的性能。

May, 2024

AutoLoRA: 基于元学习的低秩适应中矩阵秩的自动调整

AutoLoRA 是基于元学习的框架，用于自动识别每个 LoRA 层的最佳秩，通过与选择变量相关联的方法确定最佳秩，并在自然语言理解、生成和序列标记等任务上证明了其有效性。

Mar, 2024

IncreLoRA：增量参数分配方法用于参数高效微调

提出了一种增量参数分配方法 IncreLoRA，通过根据每个模块的重要性得分，在训练期间自适应地添加可训练参数，以应对有限训练条件下参数剪枝的限制，实现更高的参数效率，并在低资源设置下显著优于基准方法。

Aug, 2023

LoRA: 大型语言模型的低秩适应

本文提出了一种低秩适应方法（Low-Rank Adaptation，简称 LoRA），通过将可训练秩分解矩阵注入变压器结构的每个层中，极大地减少了下游任务中的可训练参数，并且性能与微调相当或更好，同时具有更高的训练吞吐量和没有额外推理延迟，这解决了大规模预训练模型对于微调参数和 GPU 内存占用过高的问题。

Jun, 2021

MultiLoRA: 提升多任务学习效果的 LoRA 民主化

提出了 MultiLoRA，通过减少 LoRA 中观察到的顶层奇异向量的主导性，通过水平扩展 LoRA 模块和改变适应矩阵的参数初始化来减少参数依赖性，从而产生更平衡的单元子空间，从而实现更好的多任务适应性。MultiLoRA 在多个基准和模型规模上优于单个 LoRA 对应项和微调，仅需额外 2.5％的参数。对 MultiLoRA 的权重更新矩阵进行进一步研究表明，其对顶层奇异向量的依赖性减小，单元变换贡献更加均衡。

Nov, 2023

LoTR：低张量秩权重适应

本文提出了一种新颖的参数高效微调方法 LoTR，通过张量分解的形式对参数进行梯度更新，进而构建每层的低秩适配器。LoTR 在低秩张量表示下对一系列层进行压缩，尤其适用于深度模型，相比于 LoRA 具有更好的参数效率，且核心张量不依赖于原始权重维度，可以变得任意小，可实现极为廉价快速的下游微调。

Feb, 2024

Delta-LoRA：用低秩矩阵的增量微调高秩参数

本文介绍了 Delta-LoRA，这是一种新颖的参数高效的方法，用于微调大型语言模型（LLMs）。与 LoRA 和其他低秩适应方法相比，Delta-LoRA 不仅更新低秩矩阵 A 和 B，还通过利用两个低秩矩阵的乘积的增量将学习传播到预训练权重 W，从而有效地解决了低秩矩阵的增量更新对于学习适用于下游任务的表示的不足。此外，由于 W 的更新不需要计算 W 的梯度并存储其动量，Delta-LoRA 与 LoRA 具有相当的内存需求和计算成本。大量实验表明，Delta-LoRA 明显优于现有的低秩适应方法。我们通过全面的分析进一步支持了这些结果，强调了 Delta-LoRA 的有效性。

Sep, 2023

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023