Jun, 2023

AWQ:激活感知权重量化用于低限制存储压缩和加速

TL;DR提出了一种基于激活函数的、硬件友好型的低比特权重量化方法。该方法可以保护神经网络的关键权重并保持其泛化能力,在不影响硬件效率的前提下,有效降低了语言模型部署的成本。