AAAIDec, 2023

敏捷量化:边缘端低延迟的 LLM 快速推理的激活引导量化

TL;DR本文介绍了一种针对大型语言模型的激活引导量化框架 Agile-Quant,通过模型参数和激活函数的量化实现了在边缘设备上更快的推理速度。