InRank: 增量低秩学习

Jun, 2023

InRank: Incremental Low-Rank Learning

Jiawei Zhao, Yifei Zhang, Beidi Chen, Florian Schäfer, Anima Anandkumar

TL;DR该研究提出了渐进式低秩学习技术，通过一个新的训练算法 InRank 来改进神经网络的训练，使得神经网络参数化后低秩化，以此提高计算效率并在 WikiText-103 上训练 GPT-Medium 模型时分别实现了 20% 的减少训练时间和 37% 的减少内存使用，同时保持了与全秩情况下相似的预测表现。

Abstract

The theory of greedy low-rank learning (GLRL) aims to explain the impressive generalization capabilities of deep learning. It proves that stochastic gradient-based training implicitly regularizes neural networks

greedy low-rank learning neural networks training algorithms low-rank matrices computational efficiency

发现论文，激发创造

广义低秩更新：低秩训练数据修改的模型参数界限

本研究提出了一种称作广义低秩更新 (GLRU) 的方法，它可以扩展线性估计器的低秩更新框架，并在一定的计算复杂度下提供有关更新解的信息。该方法在交叉验证和特征选择上的效率比其他基线方法更高。

Jun, 2023

解决梯度下降隐式偏差的矩阵分解方法：贪婪的低秩学习

通过深度为 2 的矩阵分解及理论和实证证据，我们证明了梯度流（用无穷小初始化）等价于一个简单的启发式秩量化算法，同时对深度大于等于 3 的情况进行了扩展，并证明了深度的优势在于对初始化幅度的弱依赖性，因此这种秩量化更可能在实践中起作用。

Dec, 2020

transformers 逐渐提高排名学习

本文从简化的前提条件出发，理论证明了在 transformer 中，训练后的权重与初始权重之间的差异会在数量上逐渐增加。实验证明这种现象确实存在。

Jun, 2023

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

不同方式叠加更多层：通过低秩更新进行高秩训练

本文探讨了低秩训练技术作为训练大型神经网络的替代方法，介绍了一种名为 ReLoRA 的新方法，并将其应用于多达 350M 参数的预训练 transformer 语言模型的训练，并证明了与常规神经网络训练相当的性能。与此同时，我们发现 ReLoRA 的效率随着模型大小的增加而增加，这使其成为高效训练多十亿参数网络的有前途的方法。我们的发现揭示了低秩训练技术的潜力及其对缩放定律的影响。

Jul, 2023

GaLore: 通过梯度低秩投影实现的内存高效 LLM 训练

通过提出 Gradient Low-Rank Projection (GaLore) 的训练策略，本研究在大规模语言模型的预训练过程中实现全参数学习，并以更高的内存效率减少了高达 65.5% 的优化器状态内存使用，同时在多项任务上保持了效率和性能，展示出在具有 24GB 内存的消费级 GPU 上（例如 NVIDIA RTX 4090）进行 7B 模型的预训练的可行性。

Mar, 2024

节点分类的低秩图对比学习

我们提出了一种新颖而稳健的图神经网络编码器，低秩图对比学习（LR-GCL），并通过低秩正则化方法进行原型对比学习训练，然后使用 LR-GCL 生成的特征进行线性传导分类算法来对图中的未标记节点进行分类。我们的方法受到图数据和标签的低频属性以及我们对传导学习的尖锐一般化界限的理论动机，是在图对比学习中低秩学习优势在理论上得到证明的第一批理论结果之一。广泛的公共基准实验表明了 LR-GCL 的卓越性能和所学节点表示的鲁棒性。

Feb, 2024

面向演化图的鲁棒图增量学习

本文研究了基于图结构数据的递增学习问题，提出了一种名为结构转移风险缓解（SSRM）的正则化技术，用来解决非独立、非同分布特性所带来的问题，并通过实证研究验证了该方法在增量学习框架中的性能优越性。

Feb, 2024

预训练模型中逐步低秩更新中遗忘的实证分析

本文研究了使用低秩适应（LoRA）将预训练模型与现有权重进行合并的设置，并探讨了 LoRA 秩对预训练任务和后续任务的遗忘、可塑性的重要影响，发现视觉变压器在这种方式下表现出一种 “上下文” 遗忘的行为，这是之前的连续学习研究中尚未观察到的现象。

May, 2024

反事实学习排序的加速收敛

本文提出了一种名为 CounterSample 的新型学习算法，通过 Inverse Propensity Scoring 和 Stochastic Gradient Descent 解决 Counterfactual Learning to Rank 中导致收敛速度慢的 IPS weights 问题，同时在多个 biased LTR scenarios 中具有更快的收敛速度和更好的表现。

May, 2020