Oct, 2024

ZipVL:具备动态令牌稀疏化与KV缓存压缩的高效大型视觉语言模型

TL;DR本研究解决了大型视觉语言模型在处理高分辨率图像或视频时的计算和内存瓶颈问题。提出的ZipVL框架通过动态调整重要令牌的稀疏比率,提升了不同任务的效率,并应用混合精度量化以优化KV缓存,从而在准确度仅下降0.2%的情况下显著提高了推理速度和降低了内存使用。