信号传播的几何动力学预测 Transformer 的可训练性

Mar, 2024

信号传播的几何动力学预测 Transformer 的可训练性

Geometric Dynamics of Signal Propagation Predict Trainability of Transformers

Aditya Cowsik, Tamra Nebabu, Xiao-Liang Qi, Surya Ganguli

TL;DR深度随机初始化的 transformer 中的前向信号传播和梯度反向传播进行了研究，得出了初始化超参数的简单必要和充分条件，以确保 transformer 的可训练性。

Abstract

We investigate forward signal propagation and gradient back propagation in deep, randomly initialized transformers, yielding simple necessary and sufficient conditions on →

forward signal propagation gradient back propagation deep transformers trainability initialization hyperparameters

发现论文，激发创造

Transformer 稳定了：一种端到端的信号传播理论用于语言模型

通过开发统一的信号传播理论和提供控制转换模型中正向和反向信号时刻的公式，本研究致力于理解和缓解与高注意力分数相关的梯度消失 / 爆炸、秩坍缩和不稳定性。我们还提出了 DeepScaleLM，一种初始化和缩放方案，通过整个模型保持单位输出 / 梯度时刻，从而使得能够训练包含上百层的非常深的模型。在多个数据集和模型大小上，我们发现转换模型可以更深 - 我们的深度模型在语言建模、语音翻译和图像分类上优于浅层模型，在只编码器、只解码器和编码器 - 解码器变体以及 Pre-LN 和 Post-LN transformer 上均如此。这些改进也会提高下游问答任务的性能，以及图像分类的鲁棒性。

Mar, 2024

通过瞬态混沌实现深度神经网络的指数表现能力

本文利用黎曼几何和高维混沌的平均场理论相结合，研究了具有随机权重的通用深度神经网络中信号传播的性质。我们的研究结果揭示了从秩序相到混沌相的表达能力相变，并证明了浅层网络无法高效地计算这种深度随机函数族。此外，我们定量证明了深度网络可以将输入空间中高度曲率的流形分解成隐藏空间中的平坦流形。

Jun, 2016

深度信息传播

通过平均场理论研究未经训练的神经网络的行为，并显示相应的深度尺度限制了信号在这些随机网络中传播的最大深度；研究表明，dropout 破坏了有序到混沌临界点，因此强烈地限制了随机网络的最大可训练深度；我们开发了后向传播的平均场理论，证明了有序和混沌相位分别对应于梯度消失和梯度爆炸的区域。

Nov, 2016

初始状态下的 Transformer 有效理论

本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析，提出了相应的模型初始化和训练超参数的宽度缩放建议，最终在实际场景中训练了视觉和语言的 Transformer 模型

Apr, 2023

用梯度下降学习联想记忆

研究关联记忆模块的训练动态，通过对数据分布和嵌入之间相关性的性质进行粒子系统的研究，揭示过参数化条件下 ' 分类边界 ' 呈对数增长、标记频率不平衡和相关嵌入导致的振荡瞬态阶段、过大步长引起的良性损失峰值以及欠参数化条件下交叉熵损失的副优化记忆方案等现象，并对小型 Transformer 模型进行了验证。

Feb, 2024

自注意力动态中群集的出现

本文将 Transformer 视为相互作用的粒子系统，描述了当权重不随时间变化时，学习表示的几何特征，证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象，这取决于值矩阵的谱。同时，在一维情况下，证明了自我关注矩阵收敛于低秩布尔矩阵。这些结果的组合在数学上证实了 Vaswani 等人的经验观察，即在 Transformers 处理一系列标记时会出现 “leader”。

May, 2023

Transformer 中的信号传播：理论视角和秩崩溃的作用

探究在 Transformer 的自我注意层中可能发生的排名坍塌现象及其影响，发现其会导致查询和键的梯度消失，导致训练受阻，但可以通过适当的深度相关的残差分支缩放来预防，而特定的架构超参数会导致查询和值的梯度的不均衡，这解释了为什么在 Transformers 的优化中广泛使用自适应方法。

Jun, 2022

多粒子动力系统视角下理解和改进 Transformer

本文提出将 Transformer 理解为数值常微分方程 (ODE) 求解器，通过这一框架给出了一种新的改进 Transformer 的方案 ——Macaron Net，经过实验证明其在监督和非监督学习任务中优于 Transformer。

Jun, 2019

自注意力神经网络的动力学平均场理论

使用非平衡 Hopfield 网络的路径积分方法研究了变压器网络的动力学规律，发现了与混沌分叉相关的非平衡相变等非平凡的动力学现象，并讨论了这种分析方法改善对变压器模型内部运作理解的潜力。

Jun, 2024

LSTM 和 GRU 的动态同构和平均场理论

本研究使用平均场理论探究了 LSTMs 和 GRUs 中的信号传播，通过优化初始化超参数，开发出了一种新的初始化方案，解决了训练不稳定性问题，从而在多个序列任务上实现了成功的训练，并且在泛化能力上也有积极的影响。

Jan, 2019