BriefGPT.xyz
Ask
alpha
关键词
llms inference
搜索结果 - 1
使用 Kcache 的高效 LLM 推断
KCache 技术是一种用于提高大型语言模型推理过程中内存瓶颈问题的技术,通过缓存预先计算的 KV 状态,将热门 LLMs 的吞吐量提高 40%,同时保持准确性。
PDF
2 months ago
Prev
Next