BriefGPT.xyz
Ask
alpha
关键词
large-scale deep learning models
搜索结果 - 1
ICLR
加速训练 Transformer 模型的多层框架
我们提出了一个多层框架,通过合并和解散以及插值操作来加速训练,从而降低了 BERT/GPT-Base 模型的计算成本约 20%,以及 BERT-Large 模型的计算成本高达 51.6%,同时保持了性能。
PDF
3 months ago
Prev
Next