Nov, 2023

可部署的LLM压缩加速之旅

TL;DR通过硬件为中心的方法,我们的压缩方法在硬件加速的基础上构建了一种新的W4A8内核实现,具有量化策略的综合配方,通过广泛的实验证明了我们的W4A8方法对于Hugging Face FP16推断的实际加速效果为4倍,对于TensorRT-LLM推断引擎的FP16加速效果为2.23倍,对于TensorRT-LLM推断引擎的INT8加速效果为1.45倍,且不会对性能造成实质性的损害。