Oct, 2023

Atom:高效准确的 LLM 服务器的低比特量化

TL;DRAtom 是一种低位量化方法,通过使用低位算子和低位量化显著提高 serving 吞吐量以及减少内存消耗,同时保持相同的延迟目标。