llms inference | BriefGPT - AI 论文速递

关键词llms inference

搜索结果 - 1

使用 Kcache 的高效 LLM 推断
KCache 技术是一种用于提高大型语言模型推理过程中内存瓶颈问题的技术，通过缓存预先计算的 KV 状态，将热门 LLMs 的吞吐量提高 40%，同时保持准确性。
PDF2 months ago