BriefGPT.xyz
Ask
alpha
关键词
llm service providers
搜索结果 - 1
Atom:高效准确的 LLM 服务器的低比特量化
Atom 是一种低位量化方法,通过使用低位算子和低位量化显著提高 serving 吞吐量以及减少内存消耗,同时保持相同的延迟目标。
PDF
8 months ago
Prev
Next