May, 2024

LLaMA 模型中的动态激活陷阱:实证研究

TL;DR我们对 LLaMA 系列语言模型中动态激活机制的功效进行了系统的调查,发现了当前动态激活方案存在的一些内在缺陷。通过对各种动态激活策略进行广泛的实验证明,与 ReLU 激活函数的对应模型相比,LLaMA 模型在要求高稀疏比率的场景中通常表现较差。我们将这些缺陷归因于以下几个因素:1)动态预测激活头和神经元的内在复杂性;2)激活函数引起的不充分稀疏性;3)KV 缓存跳过引起的信息不充分保留。我们的分析不仅揭示了大规模 LLaMA 模型中动态激活的局限性,还提出了增强未来稀疏方案设计的路线图。