Mar, 2024

信号传播的几何动力学预测 Transformer 的可训练性

TL;DR深度随机初始化的 transformer 中的前向信号传播和梯度反向传播进行了研究,得出了初始化超参数的简单必要和充分条件,以确保 transformer 的可训练性。