BriefGPT.xyz
May, 2024
稀疏展开和神经元解缠
Sparse Expansion and Neuronal Disentanglement
HTML
PDF
Shashata Sawmya, Linghao Kong, Ilia Markov, Dan Alistarh, Nir Shavit
TL;DR
我们展示了如何通过将LLM扩展为稀疏专家的混合体来提高其推理效率,其中每个专家是原始权重的副本,经过一次性修剪以特定输入值簇的方式修剪。我们称这种方法为'稀疏扩展'。我们展示了对于像LLama 270B这样的模型,随着稀疏专家的数量增加,稀疏扩展在相同推理FLOP预算下胜过所有其他一次性稀疏化方法,并且随着稀疏性的增加,这种差距加大,导致推理加速。
Abstract
We show how to improve the
inference efficiency
of an LLM by expanding it into a mixture of
sparse experts
, where each expert is a copy of the original weights, one-shot pruned for a specific cluster of input val
→