Aug, 2024

LLaMA3-70B的独特性与每通道量化:一项实证研究

TL;DR本研究解决了LLaMA3-70B模型在使用8位整数权重和8位整数激活(W8A8)后训练量化时,独特的准确度下降行为这一问题。我们提出了一种混合策略,通过对少于3%的层应用精细的W8A8量化,显著提升LLaMA3-70B模型在推理任务中的表现,准确度从45.5%提高至73.4%。这一发现为大语言模型的高效部署提供了新思路。