BriefGPT.xyz
Ask
alpha
关键词
effective-theory analysis
搜索结果 - 1
初始状态下的 Transformer 有效理论
本文针对宽且深的 Transformer 模型中的正反向信号传播进行了有效理论分析,提出了相应的模型初始化和训练超参数的宽度缩放建议,最终在实际场景中训练了视觉和语言的 Transformer 模型
PDF
a year ago
Prev
Next