Apr, 2023

利用稀疏性和数据流高效训练大型语言模型

TL;DR本论文演示了一种使用稀疏性和数据流的端到端训练流程,用于对一个大型语言模型(13 亿 GPT)进行高效训练,能够成功训练出与稠密模型相同质量的结果,并获得 4.5 倍于基线的端到端加速。