BriefGPT.xyz
大模型
Ask
alpha
关键词
kv cache memory usage
搜索结果 - 2
LOOK-M: KV 缓存中的一次查找优化,用于高效的多模态长上下文推理
LOOK-M 是一个节省多模态 KV 缓存大小的创新方法,其通过优化文本和图像特征的交互作用,使用新的文本优先方法来压缩 KV 缓存,以及使用 KV 对的合并来缓解图像上下文信息的退化,实现了高效的解码速度和在各种多模态长上下文任务中保持或
→
PDF
8 days ago
QJL:一位量化的 JL 变换用于带零开销的 KV 缓存量化
通过使用 QJL 方法,我们成功实现了对 LLMs 的服务,将 KV 缓存量化至 3 位,缩减了缓存的内存使用量并提高了运行速度,而同时保持了准确性。
PDF
a month ago
Prev
Next