Dec, 2023

权重子克隆:使用更大预训练模型直接初始化 Transformer

TL;DR用权重子克隆(weight subcloning)技术从大型预训练模型中初始化规模较小的转换器模型,实现训练速度的显著提升。