Apr, 2023

初始状态下的 Transformer 有效理论

TL;DR本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析,提出了相应的模型初始化和训练超参数的宽度缩放建议,最终在实际场景中训练了视觉和语言的 Transformer 模型