May, 2024

稀疏展开和神经元解缠

TL;DR我们展示了如何通过将LLM扩展为稀疏专家的混合体来提高其推理效率,其中每个专家是原始权重的副本,经过一次性修剪以特定输入值簇的方式修剪。我们称这种方法为'稀疏扩展'。我们展示了对于像LLama 270B这样的模型,随着稀疏专家的数量增加,稀疏扩展在相同推理FLOP预算下胜过所有其他一次性稀疏化方法,并且随着稀疏性的增加,这种差距加大,导致推理加速。