有形状变形器：无限深度和宽度限制下的注意力模型

Jun, 2023

有形状变形器：无限深度和宽度限制下的注意力模型

The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit

Lorenzo Noci, Chuning Li, Mufan Bill Li, Bobby He, Thomas Hofmann...

TL;DR在深度学习理论中，表示的协方差矩阵被用作检查网络可训练性的代理，因此我们对具有跳过连接的修改 Softmax-based 注意力模型的协方差矩阵进行研究，发现在初始化时极限分布可以由深度到宽度比率索引的随机微分方程 (SDE) 描述，我们改变了 Transformer 的注意机制来实现一个明确的随机极限，通过将 Softmax 输出居中于单位倍数，并通过宽度相关的温度参数来调整 Softmax logits 的比例，通过相应的 SDE 检查网络的稳定性，并展示如何通过残差连接来优雅地控制漂移和扩散的尺度，存在稳定的 SDE 表示协方差结构的良好行为，即使对于非常大的深度和宽度，也可以防止深度注意模型的秩退化问题，最后，我们通过模拟展示了 SDE 对应的有限尺寸模型的惊人描述，我们称这些架构修改为形状变形器。

Abstract

In deep learning theory, the covariance matrix of the representations serves as a proxy to examine the network's trainability. Motivated by the success of Transformers, we study the →

deep learning covariance matrix softmax-based attention model stochastic differential equation shaped transformer

发现论文，激发创造

神经协方差 SDE：初始化时形态无限深度和宽度的网络

本文研究了前馈神经网络初始化时 logit 输出在上一个层定义的随机协方差矩阵下的条件高斯分布，探讨了这个矩阵的分布、激活函数的精确扩展、随机微分方程的控制以及基于激活函数的权重矩阵的状况。

Jun, 2022

多头 Transformer 动态的无限极限

我们分析了特征学习阶段中 Transformer 模型的训练动力学的各种尺度极限，确定了能够在训练过程中实现无限宽度和深度极限、允许注意层更新的一组参数化；然后利用动力平均场理论（DMFT）中的工具，分析了各种无限极限（无限关键词 / 查询维度、无限头、无限深度），这些极限具有不同的统计描述，取决于所采取的无限极限和如何缩放注意层；我们提供了收敛到这些极限的数值证据，并讨论了参数化如何在质量上影响了已学习到的特征。

May, 2024

变压器学习上下文中的非线性特征：基于注意力场景的非凸平均场动力学

通过对基于 Transformer 架构的大型语言模型进行研究，本文证明了在均场动力学中，无论高度非凸的参数分布的无限维损失曲面，均很温和，而 Wasserstein 梯度流几乎总是避免鞍点，这是对均场动力学的第一次鞍点分析，相关技术具有独立的研究价值。

Feb, 2024

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023

信息路径假说：变形金刚是动态自组织

提出一种名为 SSA 的训练策略，该策略可以减少自注意力的内存和计算成本，同时提高泛化能力。该策略基于信息通路的假设，该信息通路可以独立训练，并能形成子模型，优于密集型自注意力模型在不同的 NLP，计算机视觉和图形学任务中表现优异。

Jun, 2023

自注意力的隐性偏见和快速收敛速率

通过对自注意力机制进行梯度下降的隐式偏差研究，我们在二进制分类中的固定线性解码器上训练自注意力层，证明了全局收敛并量化了关注图的稀疏化速率，同时分析了自适应步长规则对自注意力收敛速度的加速效果，从而进一步加强了自注意力的隐式偏差视角并强化了其与线性逻辑回归中的隐式偏差的联系。

Feb, 2024

TaylorShift: 使用 Taylor-Softmax 将自注意力的复杂性从平方级转换为线性级（以及反向转换）

TaylorShift 是一种新的 Taylor softmax 重构方法，能够在线性时间和空间内计算完整的 token-to-token 交互，提高了 Transformers 处理长序列的效率，并且在进行分类任务时不会降低准确性。

Mar, 2024

深度神经网络中的可交换宽度和深度缩放

本论文研究深度神经网络的无限宽度和深度极限的可交换性行为，提出并定义了可交换性框架，并讨论了其对神经网络设计和扩展的影响。通过研究神经协方差核的可交换性，证明了在深度神经网络中，对于具有跳跃连接且分支适当缩放以避免爆炸行为的情况，当无限制地提高宽度和深度时，得到的协方差结构将趋于相同。这些发现有一些理论和实践上的意义。本论文采用了创新的证明技巧，并依赖于更易于理解的工具，使其对不熟悉随机微积分（用于 WD (I) 的证明）的读者更易理解。

Oct, 2023

线性变换中的魔鬼

本文提出了一种新的线性变压器模型，称为 transNormer，以解决现有线性变压器的性能问题，通过稳定梯度和改善注意力的方式，在文本分类和语言建模任务以及 Long-Range Arena 基准测试中表现出更优异的性能，同时更加高效。

Oct, 2022

关于编码器型浅层变换器的收敛性研究

该研究建立了关于编码器式浅层 Transformer 的全局收敛理论，从体系结构、初始化和在有限宽度范围内的缩放的角度进行了现实情景的探究。研究重点在于如何解决 Transformer 核心组成部分 softmax 的问题。研究表明，在实践中使用的 He/LeCun 初始化方式下，我们的浅层 Transformer 的全局收敛只需要二次超参数化，且给出了基于神经切络核的分析，有助于综合比较不同缩放方案和初始化的重要性的差异。我们相信我们的研究结果对于更好地理解现代 Transformer，特别是训练动态方面具有重要意义。

Nov, 2023