Jun, 2024

LOOK-M: KV 缓存中的一次查找优化,用于高效的多模态长上下文推理

TL;DRLOOK-M 是一个节省多模态 KV 缓存大小的创新方法,其通过优化文本和图像特征的交互作用,使用新的文本优先方法来压缩 KV 缓存,以及使用 KV 对的合并来缓解图像上下文信息的退化,实现了高效的解码速度和在各种多模态长上下文任务中保持或增强性能。