Feb, 2024

EdgeQAT:基于熵和分布的量化感知训练用于边缘轻量级语言模型加速

TL;DR提出了一种新的轻量级语言模型优化方法 EdgeQAT,通过熵和分布引导的量化感知训练,动态量化不同位宽的令牌,从而在边缘设备上实现推理加速,并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。