Mar, 2024

关于量化大型语言模型的可压缩性

TL;DR通过应用数据压缩技术来减少数据传输,从而提高在内存受限设备上量化化的大型语言模型推理的速度。