transformers 逐渐提高排名学习

Jun, 2023

Transformers learn through gradual rank increase

Enric Boix-Adsera, Etai Littwin, Emmanuel Abbe, Samy Bengio, Joshua Susskind

TL;DR本文从简化的前提条件出发，理论证明了在 transformer 中，训练后的权重与初始权重之间的差异会在数量上逐渐增加。实验证明这种现象确实存在。

Abstract

We identify incremental learning dynamics in transformers, where the difference between trained and initial weights progressively increases in rank. We rigorously prove this occurs under the simplifying assumptio

incremental learning dynamics transformers weight matrices initialization experiments

发现论文，激发创造

InRank: 增量低秩学习

该研究提出了渐进式低秩学习技术，通过一个新的训练算法 InRank 来改进神经网络的训练，使得神经网络参数化后低秩化，以此提高计算效率并在 WikiText-103 上训练 GPT-Medium 模型时分别实现了 20% 的减少训练时间和 37% 的减少内存使用，同时保持了与全秩情况下相似的预测表现。

Jun, 2023

训练不变量和低秩现象：超越线性网络

本论文研究神经网络训练中的隐性偏差，探究梯度流和梯度下降的极限情况下，使用对数或指数损失函数对线性可分数据进行训练的深度线性网络的权重收敛于秩 1 矩阵的现象是否会发生于全连接层和跳跃连接层的 ReLU 激活前馈网络中，提出了一些训练不变性，并以特定参数方向收敛的 ReLU 网络的常数权重和多线性函数作为论据进行证明。

Jan, 2022

神经动态的低张量秩学习

通过大规模神经记录，我们研究了学习过程中权重矩阵形成的 3-Tensor 的秩，并发现推断得到的权重具有较低的张量秩，并且通过数学结果证明了较低的张量秩权重在训练低维任务的 RNN 中自然地产生。

Aug, 2023

深度学习的隐性偏见：渐增学习如何推动泛化

本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下，神经网络可以展现出增量学习能力，且通过实验证明在使用深度学习模型中，梯度下降算法有助于寻找简单的模型解。

Sep, 2019

学习如何扩展预训练模型以进行高效 Transformer 训练

通过对预训练的 transformer 的参数学习，使用线性变换因子初始化更大的模型，实现更快的 transformer 训练，并且减少了高达 50% 的计算成本。

Mar, 2023

基于变形器的学习可证明具有低秩和稀疏性：一层分析

这篇论文首次从理论上分析了低秩和稀疏性在一层 Transformer 中的特性，并通过数量化可训练参数的梯度更新得出了梯度具有低秩性的结论，同时论文还分析了模型剪枝对泛化能力的影响以及对计算效率的改善。

Jun, 2024

渐进式 BERT 训练中的 Transformer 增长

本文旨在通过对 Transformer 增长的探索来指导渐进式训练，发现复合缩放方法可以平衡模型的深度、宽度和输入的长度，并通过比较实验探索每个维度的替代增长操作，最终使 BERT 的预训练加快 73.6％（基本模型）和 82.2％（大模型），并达到相当的性能。

Oct, 2020

使用 Transformers 进行线性代数

通过例子，Transformer 可以学习执行数字计算。作者从基本矩阵操作到特征值分解和求逆，研究了线性代数的九个问题，并引入和讨论了四种编码方案以表示实数。通过使用随机矩阵训练的 Transformers 在所有问题上都能达到高的准确度，并且它们的模型对噪声具有鲁棒性，在训练分布之外也具有泛化能力。特别是，针对 Laplace 分布的特征值进行训练的模型对不同类别的矩阵具有泛化能力：Wigner 矩阵或具有正特征值的矩阵。反之则不成立。

Dec, 2021

线性变换器是多功能的上下文学习器

线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。

Feb, 2024

Transformers 学会使用预条件的梯度下降进行上下文学习

通过线性变压器在随机线性回归实例中的全局最小值，我们证明了经过训练的线性变压器的单个关注层实现了预处理的梯度下降的单个迭代，并证明了训练目标的某些临界点实现了 k 次预处理的梯度下降。

Jun, 2023