Aug, 2024

使用完全流水线分布式变换器训练超长上下文语言模型

TL;DR该研究解决了在有限GPU资源和内存下,训练具备超长上下文能力的大型语言模型(LLMs)面临的高成本和复杂性问题。作者提出了一种新的完全流水线分布式变换器(FPDT)方法,该方法能够高效训练长上下文LLMs,并在相同硬件上实现序列长度的16倍增长。该方法在多个LLM模型上显示出卓越的训练效率,潜在地降低了训练成本并提升了可扩展性。