Oct, 2024
VL-Cache:针对视觉语言模型推理加速的稀疏性与模态意识KV缓存压缩
VL-Cache: Sparsity and Modality-Aware KV Cache Compression for
Vision-Language Model Inference Acceleration
TL;DR本研究解决了加速视觉语言模型(VLM)推理过程中KV缓存存储和访问效率低下的问题。提出了一种新颖的KV缓存压缩方法VL-Cache,基于VLM的稀疏性特点和模态意识的策略,显著提高了推理速度和准确率。实验结果表明,使用该方法仅保留10%的KV缓存就可实现与完整缓存相媲美的准确性,同时在推理延迟和内存占用方面实现了显著改善。