Nov, 2023

关于编码器型浅层变换器的收敛性研究

TL;DR该研究建立了关于编码器式浅层 Transformer 的全局收敛理论,从体系结构、初始化和在有限宽度范围内的缩放的角度进行了现实情景的探究。研究重点在于如何解决 Transformer 核心组成部分 softmax 的问题。研究表明,在实践中使用的 He/LeCun 初始化方式下,我们的浅层 Transformer 的全局收敛只需要二次超参数化,且给出了基于神经切络核的分析,有助于综合比较不同缩放方案和初始化的重要性的差异。我们相信我们的研究结果对于更好地理解现代 Transformer,特别是训练动态方面具有重要意义。