May, 2024

堆叠您的 Transformer:深入研究用于高效 LLM 预训练的模型扩展

TL;DRLLM 预训练中,模型增长方法和深度叠加算子 G_stack 被证明在训练加速、性能提升和可扩展性方面具有潜力。