MADTP：多模态对齐引导的动态标记修剪加速视觉 - 语言转换器

CVPRMar, 2024

MADTP：多模态对齐引导的动态标记修剪加速视觉 - 语言转换器

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer

Jianjian Cao, Peng Ye, Shengze Li, Chong Yu, Yansong Tang...

TL;DR提出一种名为 MADTP 的新框架，通过多模态对齐和动态令牌修剪来加速各种视觉语言变换 (VLTs) 模型，显著减少计算复杂度同时保持竞争性能。

Abstract

vision-language transformers (VLTs) have shown great success recently, but are meanwhile accompanied by heavy computation costs, where a major reason can be attributed to the large number of visual and language tokens. Existing token pruning research for compressing VLTs mainly follows

vision-language transformers token pruning multimodal alignment dynamic token pruning computational complexity

发现论文，激发创造

MULTIFLOW：面向任务无关的视觉 - 语言剪枝的转变

在本文中，我们提出了一种新的网络剪枝框架 Multimodal Flow Pruning (MULTIFLOW)，用于解决 Vision-Language 模型中高计算成本的问题，并将其应用于 Task-Agnostic Vision-Language Pruning (TA-VLP) 的场景，实验证明它在绝大多数情况下胜过其他剪枝算法，为解决 TA-VLP 问题提供了一个新的方向。

Apr, 2024

SmartTrim：用于高效视觉语言模型的自适应令牌和参数剪枝

提出了一种智能修剪方法 SmartTrim，通过在模型中集成轻量级修剪模块，对冗余输入和参数进行任务特定修剪，不需要额外的预训练或数据增强，利用跨模态交互信息提供更重要的语义指导，以达到资源受限场景下更好的效率 - 性能平衡。

May, 2023

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

CATP: 跨注意力令牌修剪以保留准确的多模态模型推理

使用跨注意力层和精确投票策略，Cross-Attention Token Pruning（CATP）方法在多模态模型中提取有价值信息来确定重要性，相对于其他方法能达到 12.1 倍的准确率提升，并解决了计算效率和模型精度之间的权衡。

Apr, 2024

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数，具有 98.4％的性能表现，并在各种视觉 - 语言任务中取得了令人瞩目的结果。

Oct, 2022

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

基于梯度自由的自适应全局修剪预训练语言模型

通过重新定义全局修剪过程为可管理的、协调的子问题，并利用辅助变量进行问题分解，AdaGP 框架在 LLMs 上展示了重要的性能提升，特别是在高稀疏度范围内超越了当前最先进的方法。

Feb, 2024

SPViT：通过软件 Token 剪枝加速视觉 Transformer

通过利用输入令牌稀疏性并提出计算感知的软剪枝框架，可以大幅减少 Vision Transformer 计算成本，并满足移动设备和 FPGA 的资源规格要求，甚至在移动平台上实现 DeiT-T 的实时执行。

Dec, 2021

Transformer 模型的学习型 Token 裁剪

本文提出了一种新的学习 Token 修剪 (LTP) 方法，旨在优化 transformer 模型输入序列的推理成本，通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪，从而获得 2.5% 的性能提升和 FLOPs 降低，进而显著提高了处理器和 GPU 的吞吐量，并展示了更好的鲁棒性能。

Jul, 2021

Turbo: 信息驱动的加速插件用于视觉语言模型

本文通过研究数据冗余性，设计并提出了一种基于信息度的 Turbo 模块，用于从视觉或文本数据中剪裁低效的令牌，以实现 Vision-Language Large Models 的加速，同时较少性能损失。

Dec, 2023