BriefGPT.xyz
Ask
alpha
关键词
transformer growth
搜索结果 - 1
ACL
渐进式 BERT 训练中的 Transformer 增长
本文旨在通过对 Transformer 增长的探索来指导渐进式训练,发现复合缩放方法可以平衡模型的深度、宽度和输入的长度,并通过比较实验探索每个维度的替代增长操作,最终使 BERT 的预训练加快 73.6%(基本模型)和 82.2%(大模型
→
PDF
4 years ago
Prev
Next