Aug, 2023

OmniQuant:大型语言模型的全向校准量化

TL;DR利用 OmniQuant 技术对大型语言模型进行后训练量化,实现了在多种量化设置下的出色性能,同时保持计算效率;在实际设备上能够显著提高推理速度和内存减少。