BriefGPT.xyz
大模型
Ask
alpha
关键词
neuron importance evaluation metrics
搜索结果 - 1
ACL
大规模语言模型的稀疏加速训练
使用稀疏性加速预训练大型语言模型 (LLMs) 的训练过程,通过观察前向迭代中被激活的神经元的稀疏性,排除不活跃的神经元以提高计算速度,这一方法在实践中实现了与标准训练相媲美甚至更好的性能,持续预训练中吞吐量提升了 45%,在监督微调中节省
→
PDF
a month ago
Prev
Next