Oct, 2024
金字塔滴落:通过金字塔视觉冗余减少加速您的大型视觉语言模型
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid
Visual Redundancy Reduction
TL;DR本研究解决了大型视觉语言模型(LVLMs)中图像输入造成的计算成本过高问题。提出的金字塔滴落策略通过在各个阶段末端选择性丢弃部分图像标记,显著提高了训练和推理效率,同时仅造成轻微的性能损失。实验表明,该方法能实现高达40%的训练时间和55%的推理计算加速,展示了其在LVLMs中的潜在重要性。