推理最优的视觉语言模型仅需一个视觉标记,但需要更大的模型
通过跳过Transformer LLMs中后面的attention子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在Llama 2 7B上观察到21%的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
通过引入Visual Tokens Withdrawal模块以提升Multimodal large language models在快速推理方面的性能,通过分析注意力集中现象和信息迁移现象,我们发现在深层的MLLMs中不需要视觉特征信息,并通过判断Kullback-Leibler散度选择了合适的层进行视觉特征的提取操作,使得我们的方法能在维持性能的同时,减少超过40%的计算开销。
May, 2024
基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation,实现了视觉压缩并提高推理效率,能够理解时间相关性,在多模态应用中具有广泛的潜力。
Jun, 2024
本研究针对视觉变压器(ViTs)在训练和推理阶段压缩程度不匹配导致性能大幅下滑的问题,提出了一种模型算术框架,能够解耦这两个阶段的压缩程度。通过引入一种小插件——令牌补偿器(ToCom),可在推理时直接应用于任何下游模型,显著提升了模型的鲁棒性和性能。实验结果显示,在多个下游任务上,ToCom的应用可实现平均性能提高,验证了该方法的有效性。
Aug, 2024
本研究解决了高分辨率视觉-语言模型在资源受限环境下处理过多视觉标记的挑战,提出了一种名为高分辨率早期丢弃(HiRED)的标记丢弃方案。HiRED利用视觉编码器的注意力机制来智能选择和丢弃不必要的标记,最终实验证明该方法显著提高了标记生成的吞吐量,并在保持高准确度的同时节省了计算资源。
Aug, 2024
本研究针对现有视觉语言模型中视觉标记消耗大量计算资源的问题,提出了一种不需要额外训练的数据的有效标记优化机制SparseVLM。实验结果表明,该方法在多种图像和视频理解任务中显著提升了效率,尤其是LLaVA模型在保持较高准确率的同时,FLOPs减少了61%至67%,压缩率达到78%。
Oct, 2024
本研究针对视觉-语言模型中视觉令牌占用大量计算资源的问题,提出了一种无额外训练的数据的高效令牌优化机制SparseVLM。该方法通过自注意力矩阵中的相关文本令牌选择视觉令牌的显著性,逐步修剪无关令牌,显著提高了多个视觉-语言模型在图像和视频理解任务中的效率,同时保持了高准确率。
Oct, 2024
本研究解决了现有视觉-语言模型中视觉标记数量过多导致的计算开销问题。我们提出了一种名为Visual Compact Token Registers(Victor)的方法,通过将视觉信息总结为更少的寄存器标记,显著提高计算效率并减少训练时间,实验结果显示准确性损失低于4%。
Oct, 2024
本研究解决了加速视觉语言模型(VLM)推理过程中KV缓存存储和访问效率低下的问题。提出了一种新颖的KV缓存压缩方法VL-Cache,基于VLM的稀疏性特点和模态意识的策略,显著提高了推理速度和准确率。实验结果表明,使用该方法仅保留10%的KV缓存就可实现与完整缓存相媲美的准确性,同时在推理延迟和内存占用方面实现了显著改善。
Oct, 2024