Jul, 2024

注意力是你需要的,但在大语言模型推理中并不需要全部注意力

TL;DR本文研究了在推理时省略 Llama-v2 模型的 MLP 和注意力层对性能的影响,填补了大语言模型推理效率提升的空白。研究发现,省略较深的注意力层仅会轻微降低性能,但可以显著加速推理。结果表明,去掉 13B Llama2 模型中 33% 的注意力层,平均性能仅下降 1.8%。