Jun, 2024

SDQ:稀疏分解量化用于 LLM 推断

TL;DR借助 SDQ 的结构稀疏性和量化方法,可以实现高计算和内存效率,并且在性能上只有不到 1% 的质量损失。