May, 2024
I-LLM:针对完全量化低位大型语言模型的高效整数推断
I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models
Xing Hu, Yuan Chen, Dawei Yang, Sifan Zhou, Zhihang Yuan...
TL;DR该研究论文通过提出一种新型的整数化后训练量化框架 (I-LLM),解决了大语言模型在部署边缘和云设备上仍需要大量浮点运算的问题。实验证明,I-LLM 在保持准确性的前提下,可以以 W4A4 进行操作,优于其他非整数量化方法。