Aug, 2024
HiRED:基于注意力的标记丢弃方法以实现资源受限环境下高分辨率视觉-语言模型的高效推理
HiRED: Attention-Guided Token Dropping for Efficient Inference of
High-Resolution Vision-Language Models in Resource-Constrained Environments
Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John...
TL;DR本研究解决了高分辨率视觉-语言模型在资源受限环境下处理过多视觉标记的挑战,提出了一种名为高分辨率早期丢弃(HiRED)的标记丢弃方案。HiRED利用视觉编码器的注意力机制来智能选择和丢弃不必要的标记,最终实验证明该方法显著提高了标记生成的吞吐量,并在保持高准确度的同时节省了计算资源。