通过豪斯荷尔德反射自适应缩小低秩与正交适应之间的差距
本文介绍了通过约束转移矩阵为正交矩阵来解决序列学习中的长期依赖性问题的方法,并针对简单 RNN 的情况提出了一种新的参数化方案,将正交约束应用于转移矩阵,以提高训练效率。
Dec, 2016
基于正交字典学习问题,我们提出了一种新的矩阵分解方法,其中数据矩阵 Y 是 Householder 矩阵 H 和二进制矩阵 X 的乘积。首先,我们证明了从 Y 中确切恢复出因子 H 和 X 是在 Y 中具有 Ω(1) 列的;接下来,我们证明了在 Y 中具有 Ω(log n) 列时,可以在多项式时间 (O (np)) 内以 l∞意义上近似恢复。希望本文中的技术有助于开发正交字典学习的替代算法。
May, 2024
在本研究中,我们引入了一类新的结构化矩阵,统一并推广了之前工作中的结构化类,以进一步改进参数和计算效率。我们还将这种参数化方法用于修改正交微调框架,在不同领域进行了实证验证,包括文本与图像扩散模型的自适应和语言建模中的下游任务微调。此外,我们还将我们的结构化构造用于正交卷积,并进行了 1-Lipschitz 神经网络的实验。
Jun, 2024
本文提出了一种新颖的参数高效微调方法 LoTR,通过张量分解的形式对参数进行梯度更新,进而构建每层的低秩适配器。LoTR 在低秩张量表示下对一系列层进行压缩,尤其适用于深度模型,相比于 LoRA 具有更好的参数效率,且核心张量不依赖于原始权重维度,可以变得任意小,可实现极为廉价快速的下游微调。
Feb, 2024
介绍了一种在保证模型精度的情况下,同时降低深度学习中推理和训练成本,并通过基于神经网络条件数的模型稳健性表明低秩矩阵分解(low-rank matrix factorizations)容易导致模型鲁棒性的问题,提出了一种基于鲁棒低秩矩阵训练的算法,通过施加近似正交约束,保证了低秩表示与近似完整的模型之间精度。通过实验证明降低深度学习模型中推理和训练成本的同时,提高了模型的鲁棒性。
Jun, 2023
通过引入 Riemannian 预处理器,研究 Low Rank Adaptation(LoRA)微调过程的增强,实验结果表明,使用我们的预处理器可以显著提高 SGD 和 AdamW 的收敛性和稳定性。
Feb, 2024
使用低秩适应(LoRA)参数有效的微调方法,通过分析其表达能力和近似误差,证明了 LoRA 方法能够将预训练模型适应到较小目标模型,并适用于全连接神经网络和 Transformer 网络。
Oct, 2023
深度学习模型的可扩展性受到计算资源、内存和通讯的根本限制。本文在模型预训练中探索了低秩适应(LoRA)方法的应用,介绍了 LoRA-the-Explorer(LTE)算法,通过在计算节点上进行多个低秩头的并行训练来减少同步频率,使用不同视觉数据集进行广泛实验,并证明 LTE 在标准预训练中具有竞争力。
Feb, 2024
该论文研究了一种名为 Hydra 的适应方法,它基于并行和顺序适应支路学习到了新的和通用的特征,在 fine-tuning 过程中能够探索更广泛的最优点范围。此外,该方法还利用预训练权重经过线性组合来明确 leverages the pre-trained weights 的适应方法,并改善了学习特征在不同下游任务中的泛化性能。通过一系列实验证明了 Hydra 方法的高效性和卓越性能,并展示了它在各种应用中的潜在影响和效果。
Sep, 2023