该研究提出了渐进式低秩学习技术,通过一个新的训练算法 InRank 来改进神经网络的训练,使得神经网络参数化后低秩化,以此提高计算效率并在 WikiText-103 上训练 GPT-Medium 模型时分别实现了 20% 的减少训练时间和 37% 的减少内存使用,同时保持了与全秩情况下相似的预测表现。
Jun, 2023
本论文研究神经网络训练中的隐性偏差,探究梯度流和梯度下降的极限情况下,使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中,提出了一些训练不变性,并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。
Jan, 2022
通过大规模神经记录,我们研究了学习过程中权重矩阵形成的 3-Tensor 的秩,并发现推断得到的权重具有较低的张量秩,并且通过数学结果证明了较低的张量秩权重在训练低维任务的 RNN 中自然地产生。
Aug, 2023
本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下,神经网络可以展现出增量学习能力,且通过实验证明在使用深度学习模型中,梯度下降算法有助于寻找简单的模型解。
Sep, 2019
通过对预训练的 transformer 的参数学习,使用线性变换因子初始化更大的模型,实现更快的 transformer 训练,并且减少了高达 50% 的计算成本。
Mar, 2023
这篇论文首次从理论上分析了低秩和稀疏性在一层 Transformer 中的特性,并通过数量化可训练参数的梯度更新得出了梯度具有低秩性的结论,同时论文还分析了模型剪枝对泛化能力的影响以及对计算效率的改善。
Jun, 2024
本文旨在通过对 Transformer 增长的探索来指导渐进式训练,发现复合缩放方法可以平衡模型的深度、宽度和输入的长度,并通过比较实验探索每个维度的替代增长操作,最终使 BERT 的预训练加快 73.6%(基本模型)和 82.2%(大模型),并达到相当的性能。
Oct, 2020
通过例子,Transformer 可以学习执行数字计算。作者从基本矩阵操作到特征值分解和求逆,研究了线性代数的九个问题,并引入和讨论了四种编码方案以表示实数。通过使用随机矩阵训练的 Transformers 在所有问题上都能达到高的准确度,并且它们的模型对噪声具有鲁棒性,在训练分布之外也具有泛化能力。特别是,针对 Laplace 分布的特征值进行训练的模型对不同类别的矩阵具有泛化能力:Wigner 矩阵或具有正特征值的矩阵。反之则不成立。
Dec, 2021
线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。
Feb, 2024
通过线性变压器在随机线性回归实例中的全局最小值,我们证明了经过训练的线性变压器的单个关注层实现了预处理的梯度下降的单个迭代,并证明了训练目标的某些临界点实现了 k 次预处理的梯度下降。