BriefGPT.xyz
Ask
alpha
关键词
weight subcloning
搜索结果 - 1
权重子克隆:使用更大预训练模型直接初始化 Transformer
用权重子克隆(weight subcloning)技术从大型预训练模型中初始化规模较小的转换器模型,实现训练速度的显著提升。
PDF
7 months ago
Prev
Next