May, 2024

稀疏展开和神经元解缠

TL;DR我们展示了如何通过将 LLM 扩展为稀疏专家的混合体来提高其推理效率,其中每个专家是原始权重的副本,经过一次性修剪以特定输入值簇的方式修剪。我们称这种方法为 ' 稀疏扩展 '。我们展示了对于像 LLama 270B 这样的模型,随着稀疏专家的数量增加,稀疏扩展在相同推理 FLOP 预算下胜过所有其他一次性稀疏化方法,并且随着稀疏性的增加,这种差距加大,导致推理加速。