Aug, 2024

移动量化:适用于设备语言模型的移动友好量化

TL;DR本研究解决了在边缘设备上部署大型语言模型(LLMs)时面临的内存、能量和计算成本的挑战。通过提出一种名为MobileQuant的简单后训练量化方法,本研究首次通过仅使用整数量化来优化激活范围及权重转换,显著降低延迟和能耗,提升了量化的精确度,对移动设备友好,具有重要的应用潜力。