Feb, 2025
PLPHP:用于高效大型视觉语言模型的每层每头视觉标记修剪
PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large
Vision-Language Models
TL;DR本研究旨在解决大型视觉语言模型(LVLMs)推理效率低下的问题,提出了一种新的修剪方法——每层每头视觉标记修剪(PLPHP)。该方法通过动态调整每层的视觉标记保留率和在注意力头级别进行修剪,显著提高了解码速度和减少缓存大小,实验结果显示在保持较小性能损失的同时,解码速度提高了18%。