CATP: 跨注意力令牌修剪以保留准确的多模态模型推理

Apr, 2024

CATP: 跨注意力令牌修剪以保留准确的多模态模型推理

CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference

Ruqi Liao, Chuqing Zhao, Jin Li, Weiqi Feng

TL;DR使用跨注意力层和精确投票策略，Cross-Attention Token Pruning（CATP）方法在多模态模型中提取有价值信息来确定重要性，相对于其他方法能达到 12.1 倍的准确率提升，并解决了计算效率和模型精度之间的权衡。

Abstract

In response to the rising interest in large multimodal models, we introduce cross-attention token pruning (CATP), a precision-focused token pruning method. Our approach leverages cross-attention layers in

cross-attention token pruning multimodal models blip-2 token importance determination computational efficiency

发现论文，激发创造

CAT: 视觉 Transformer 中的交叉注意力

探索使用 Cross Attention 机制替代传统的 self-attention 机制在计算机视觉任务中实现 Transformer 的实用性，实验表明该机制在 ImageNet-1K、COCO 和 ADE20K 等任务上可以达到先进水平，并且降低了计算量。

Jun, 2021

PointCAT：点云的交叉注意力变换器

本文提出了一种基于 Point Cross-Attention Transformer 的新型端到端网络结构，将多尺度特征通过两个不同的跨注意力变换器分支进行组合，并引入一种有效的形状分类模型，通过计算不同分支的单类标记与注意图来减少计算负担，实验表明该方法在形状分类，部分分割和语义分割任务中表现优异。

Apr, 2023

MADTP：多模态对齐引导的动态标记修剪加速视觉 - 语言转换器

提出一种名为 MADTP 的新框架，通过多模态对齐和动态令牌修剪来加速各种视觉语言变换 (VLTs) 模型，显著减少计算复杂度同时保持竞争性能。

Mar, 2024

关键学习时期：利用早期训练动态进行高效数据修剪

我们提出了一种新的数据修剪技术：Checkpoints Across Time (CAT)，通过利用早期模型训练动态来识别对模型性能最相关的数据点，实现了在减少 50% 的训练数据的同时，与使用完整数据集的性能相当，且优于其他数据修剪技术。

May, 2024

约束感知和排名蒸馏的令牌剪枝用于高效的 Transformer 推理

本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP，可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明，ToP 优于现有的令牌剪枝和模型压缩方法，并提供高达 7.4 倍的实际延迟加速。

Jun, 2023

Transformer 模型的学习型 Token 裁剪

本文提出了一种新的学习 Token 修剪 (LTP) 方法，旨在优化 transformer 模型输入序列的推理成本，通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪，从而获得 2.5% 的性能提升和 FLOPs 降低，进而显著提高了处理器和 GPU 的吞吐量，并展示了更好的鲁棒性能。

Jul, 2021

聚焦核心：通过裁剪令牌压缩实现高效的文档分类注意力

通过结合令牌修剪和令牌合并的策略，我们在基于 Transformer 模型的基础上提出了改进的方法，既提高了模型的性能，又降低了计算需求。在各种数据集上的实验证明，与基准模型相比，我们的方法在准确度上提升了 5% p，F1 得分提升了 5.6% p。此外，我们成功减少了内存成本到 0.61 倍，并实现了 1.64 倍的加速。

Jun, 2024

SpAtten: 级联记号与头部修剪的高效稀疏注意力架构

提出了 SpAtten，这是一种高效的算法 - 架构协同设计，利用标记稀疏性、头部稀疏性和量化机会，通过级联剪枝和渐进式量化来减少注意力计算和内存访问，实验结果证明其在 30 个基准测试中平均减少 DRAM 访问 10 倍，并且相对于其他加速器和处理器能达到巨大的加速和能耗降低。

Dec, 2020

树形交叉注意力

通过树形交叉关注，Tree Cross Attention (TCA) 模块以对数复杂度 O (log (N)) 用于推理时从一组上下文标记中检索信息，与 Cross Attention 相比，TCA 在各种分类和不确定性回归任务上表现相当并且更加高效。

Sep, 2023

多头注意力自动剪枝

基于通道相似性和修剪指示器的多头注意力机制自动修剪方法，通过平衡各头通道的移除比例和通道信息的重新加权来降低计算复杂性，并在图像分类任务中表现出超越先前的高效模型和修剪方法的准确性。

May, 2024