深度超参数低秩学习与调整中的可压缩动力学

ICMLJun, 2024

深度超参数低秩学习与调整中的可压缩动力学

Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation

Can Yaras, Peng Wang, Laura Balzano, Qing Qu

TL;DR通过利用数据的固有低维结构和模型参数的可压缩动力学，我们展示了优化和泛化方面的超参数化的好处，而无需增加计算负担。在深度低秩矩阵补全和微调语言模型的实践中，我们证明了这种方法的有效性，同时保留了超参数化对性能的优势。

Abstract

While overparameterization in machine learning models offers great benefits in terms of optimization and generalization, it also leads to increased computational requirements as model sizes grow. In this work, we show that by leveraging the inherent low-dimensional structures of data a

overparameterization low-rank matrix completion compressible dynamics fine-tuning language models deep lora

发现论文，激发创造

通过低维度学习动力学高效压缩超参数化深度模型

通过研究过度参数化的深度网络的学习动力学，我们揭示了各种体系结构的权重矩阵展现出低维结构，我们利用这些洞见通过减小中间层的宽度来压缩深度线性网络，实验证明这种压缩技术能够加速训练过程超过两倍，而不牺牲模型质量。

Nov, 2023

PC-LoRA：基于知识蒸馏的逐步模型压缩的低秩适应

逐步压缩低秩适应（PC-LoRA）方法通过低秩适应同时进行模型压缩和微调，最终仅保留低秩适配器以取代预训练权重，实现了参数和计算量的压缩。

Jun, 2024

基于特征的大型语言模型通过贝叶斯优化的低秩压缩

近年来，大型语言模型（LLMs）在自然语言处理方面取得了重要进展，但其规模的增大增加了计算负担，需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战，我们对大模型的低秩特性进行了实证研究，并提出了一种适用于 LLMs 的低秩压缩方法，该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明，我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳，能够保持模型的性能。

May, 2024

大规模语言模型指令调优的超参数优化

研究采用黑盒优化技术通过 LoRA 方法调优大型语言模型的超参数选择，以提高性能和人工对齐。

Dec, 2023

LoTR：低张量秩权重适应

本文提出了一种新颖的参数高效微调方法 LoTR，通过张量分解的形式对参数进行梯度更新，进而构建每层的低秩适配器。LoTR 在低秩张量表示下对一系列层进行压缩，尤其适用于深度模型，相比于 LoRA 具有更好的参数效率，且核心张量不依赖于原始权重维度，可以变得任意小，可实现极为廉价快速的下游微调。

Feb, 2024

DyLoRA: 使用动态无搜索低秩适应进行参数高效微调预训练模型

本文提出了一种名为 Dynamic Low-Rank Adaptation 的技术，旨在通过训练预训练模型的适配器模块，为多个秩数建立动态搜索免费的模型，并证明该方法可以显著加快训练速度并在 GLUE 基准测试中取得一致的优秀表现。

Oct, 2022

NOLA：网络作为低秩随机基组合的线性组合

通过重新参数化使用线性组合随机生成的矩阵（基）的低秩矩阵，并仅优化线性混合系数，NOLA 将创新地克服了 LoRA 中的秩一下界，与等效参数计数的模型相比，NOLA 在自然语言处理和计算机视觉任务中表现得很好，并且证明能在更大的模型中减少一半的参数而不降低性能。

Oct, 2023

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

低秩适应的表达能力

使用低秩适应（LoRA）参数有效的微调方法，通过分析其表达能力和近似误差，证明了 LoRA 方法能够将预训练模型适应到较小目标模型，并适用于全连接神经网络和 Transformer 网络。

Oct, 2023

不同方式叠加更多层：通过低秩更新进行高秩训练

本文探讨了低秩训练技术作为训练大型神经网络的替代方法，介绍了一种名为 ReLoRA 的新方法，并将其应用于多达 350M 参数的预训练 transformer 语言模型的训练，并证明了与常规神经网络训练相当的性能。与此同时，我们发现 ReLoRA 的效率随着模型大小的增加而增加，这使其成为高效训练多十亿参数网络的有前途的方法。我们的发现揭示了低秩训练技术的潜力及其对缩放定律的影响。

Jul, 2023