Jun, 2024

MOYU: 大规模过度激活引起的语言模型提升的理论研究

TL;DR大规模语言模型的 Massive Over-activation Yielded Uplifts (MOYU) 是一种固有属性,基于 MOYU 属性的动态激活 (DA) 是一种旨在加速这些模型推理的巧妙但未被充分探索的策略。本文澄清了 MOYU 特性的根本原因,阐述了当前 DA 方法存在的两个主要限制机制:1)与历史相关的激活不确定性,2)语义无关的激活惯性。我们的分析不仅突出了当前大规模 LLaMA 模型中动态激活策略的局限性,还提出了改进未来稀疏度方案设计的机会。