May, 2024

减轻 GLU-Based LLMs 中由激活峰值引起的量化误差

TL;DR现代大型语言模型通过架构改进取得了最先进的性能,但仍需要昂贵的计算成本进行推理。本文研究了 GLU 变体中激活量化的挑战,揭示了过量激活量级引起的严重局部量化误差,提出了两种经验方法来隔离激活峰值,并验证了在最新的 GLU 变体的大型语言模型中的有效性。