Aug, 2022

分支 - 训练 - 合并:专家语言模型的尴尬并行训练

TL;DR提出了 Branch-Train-Merge (BTM) 算法来高效地训练大型语言模型,该算法通过学习一组具有独立专业性的语言模型 (ELM),将一个新类的 LLMs 的子部分独立训练在不同的数据子集上,并实验表明相对于当前 LLMs 的训练方法,BTM 能够获得更好的性能且相对于训练成本而言更高效