Jun, 2023

有形状变形器:无限深度和宽度限制下的注意力模型

TL;DR在深度学习理论中,表示的协方差矩阵被用作检查网络可训练性的代理,因此我们对具有跳过连接的修改 Softmax-based 注意力模型的协方差矩阵进行研究,发现在初始化时极限分布可以由深度到宽度比率索引的随机微分方程 (SDE) 描述,我们改变了 Transformer 的注意机制来实现一个明确的随机极限,通过将 Softmax 输出居中于单位倍数,并通过宽度相关的温度参数来调整 Softmax logits 的比例,通过相应的 SDE 检查网络的稳定性,并展示如何通过残差连接来优雅地控制漂移和扩散的尺度,存在稳定的 SDE 表示协方差结构的良好行为,即使对于非常大的深度和宽度,也可以防止深度注意模型的秩退化问题,最后,我们通过模拟展示了 SDE 对应的有限尺寸模型的惊人描述,我们称这些架构修改为形状变形器。