Oct, 2024
SparseVLM:用于高效视觉-语言模型推理的视觉令牌稀疏化
SparseVLM: Visual Token Sparsification for Efficient Vision-Language
Model Inference
TL;DR本研究针对视觉-语言模型中视觉令牌占用大量计算资源的问题,提出了一种无额外训练的数据的高效令牌优化机制SparseVLM。该方法通过自注意力矩阵中的相关文本令牌选择视觉令牌的显著性,逐步修剪无关令牌,显著提高了多个视觉-语言模型在图像和视频理解任务中的效率,同时保持了高准确率。