Feb, 2024
EdgeQAT:基于熵和分布的量化感知训练用于边缘轻量级语言模型加速
EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for the Acceleration of Lightweight LLMs on the Edge
Xuan Shen, Zhenglun Kong, Changdi Yang, Zhaoyang Han, Lei Lu...
TL;DR提出了一种新的轻量级语言模型优化方法 EdgeQAT,通过熵和分布引导的量化感知训练,动态量化不同位宽的令牌,从而在边缘设备上实现推理加速,并实验证明其与 FP16 模型相比在多个边缘设备上可以达到高达 2.37 倍的速度提升。