语言模型持续学习的正交子空间学习
OLoRA 是对 LoRA 方法的增强,利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度,同时保留 LoRA 的高效特性,例如可训练参数数量和 GPU 内存占用,实证评估结果显示,OLoRA 不仅收敛更快,而且在各种语言建模任务上表现出更好的性能,为 LLM 的精细调整提供了更高效和可访问性的可能,从而促进自然语言应用的广泛采用和创新。
Jun, 2024
提出了 MultiLoRA,通过减少 LoRA 中观察到的顶层奇异向量的主导性,通过水平扩展 LoRA 模块和改变适应矩阵的参数初始化来减少参数依赖性,从而产生更平衡的单元子空间,从而实现更好的多任务适应性。MultiLoRA 在多个基准和模型规模上优于单个 LoRA 对应项和微调,仅需额外 2.5%的参数。对 MultiLoRA 的权重更新矩阵进行进一步研究表明,其对顶层奇异向量的依赖性减小,单元变换贡献更加均衡。
Nov, 2023
我们提出了一种新颖的方法,利用低秩适应和任务算术,不断训练基于 Transformer 的视觉模型,绕过灾难性遗忘问题并减少训练计算需求。在每个类别仅使用 10 个样本的小内存的帮助下,我们的方法实现了接近于完整微调的性能,并通过严格的消融实验证明了我们方法的优势。
Nov, 2023
本文介绍了一种基于子空间的低秩适应方法(LoRA),该方法在计算效率、实施简易性和适用性方面具有优势,可广泛应用于大型语言、多模态和扩散模型;通过子空间的微观视角,我们发现混合两个子空间可以提升性能,并通过与原始 LoRA 权重共同学习混合器,进一步灵活性地实现该方法,称之为混合子空间 LoRA(MoSLoRA);在不同模态的任务中,包括常识推理、视觉指令微调和基于主题的文本到图像生成,MoSLoRA 始终表现出色,验证了其有效性和稳健性。
Jun, 2024
在研究中我们发现,当大型语言模型在复杂多样的特定领域下任务中不断进行微调时,对历史任务的推理性能会显著降低,这就是所谓的灾难性遗忘问题。本文通过模态连接性的透镜,调查了连续 LLM 微调场景中不同极小值之间的几何连接,发现它可以在可塑性和稳定性之间取得平衡。基于这些发现,我们提出了一种称为 Interpolation-based LoRA(I-LoRA)的简单而有效的方法,它基于 LoRA 参数插值构建了双记忆经验回放框架。在八个特定领域的连续学习基准测试上的广泛实验和分析表明,I-LoRA 始终比先前的最先进方法取得显著提升,性能提高了高达 11%,为大型语言模型连续学习问题提供了强大的基准和研究启示。
Feb, 2024
通过注入少量参数重参数化预训练权重,InfLoRA 方法设计了一个子空间来消除新任务对旧任务的干扰,实现了稳定性和可塑性之间的良好权衡,从而在多个数据集上胜过现有最先进的持续学习方法。
Mar, 2024
提出了一种结合 Mixture-of-Experts 和 Low-Rank Adaptation 的方法 MoRAL,用于有效地进行大型语言模型的终身学习,使用问题 - 答案对作为输入以提高鲁棒性和效率,并通过新的评估基准和指标对其进行了全面评估。
Feb, 2024
通过梯度下降,我们确认了大型语言模型的有效模型收敛所需的重要组件,并提出了一种廉价且内存高效的算法来进行微调和预训练大型语言模型。
May, 2024
为了解决使用低秩更新机制限制了大型语言模型学习和记忆新知识的问题,本文提出了一种名为 MoRA 的新方法,通过引入相应的非参数操作来降低输入维度并增加输出维度,从而实现了高秩更新,同时保持了可训练参数的数量,并在五个任务中对该方法进行了全面评估,结果显示我们的方法在占用内存的任务上表现优于 LoRA,并在其他任务上达到了可比较的性能。
May, 2024