ACLJun, 2024

大规模语言模型的稀疏加速训练

TL;DR使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程,通过观察前向迭代中被激活的神经元的稀疏性,排除不活跃的神经元以提高计算速度,这一方法在实践中实现了与标准训练相媲美甚至更好的性能,持续预训练中吞吐量提升了 45%,在监督微调中节省了 38% 的训练时间,提供了一个简单、硬件无关且易于部署的额外 LLM 训练框架。