CATP: 跨注意力令牌修剪以保留准确的多模态模型推理
探索使用 Cross Attention 机制替代传统的 self-attention 机制在计算机视觉任务中实现 Transformer 的实用性,实验表明该机制在 ImageNet-1K、COCO 和 ADE20K 等任务上可以达到先进水平,并且降低了计算量。
Jun, 2021
本文提出了一种基于 Point Cross-Attention Transformer 的新型端到端网络结构,将多尺度特征通过两个不同的跨注意力变换器分支进行组合,并引入一种有效的形状分类模型,通过计算不同分支的单类标记与注意图来减少计算负担,实验表明该方法在形状分类,部分分割和语义分割任务中表现优异。
Apr, 2023
提出一种名为 MADTP 的新框架,通过多模态对齐和动态令牌修剪来加速各种视觉语言变换 (VLTs) 模型,显著减少计算复杂度同时保持竞争性能。
Mar, 2024
我们提出了一种新的数据修剪技术:Checkpoints Across Time (CAT),通过利用早期模型训练动态来识别对模型性能最相关的数据点,实现了在减少 50% 的训练数据的同时,与使用完整数据集的性能相当,且优于其他数据修剪技术。
May, 2024
本文提出了一种基于约束感知和排名提取的令牌剪枝方法 ToP,可在保持准确性的同时提高模型的在线推理速度。在 GLUE 基准和 SQuAD 任务上的广泛实验表明,ToP 优于现有的令牌剪枝和模型压缩方法,并提供高达 7.4 倍的实际延迟加速。
Jun, 2023
本文提出了一种新的学习 Token 修剪 (LTP) 方法,旨在优化 transformer 模型输入序列的推理成本,通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪,从而获得 2.5% 的性能提升和 FLOPs 降低,进而显著提高了处理器和 GPU 的吞吐量,并展示了更好的鲁棒性能。
Jul, 2021
通过结合令牌修剪和令牌合并的策略,我们在基于 Transformer 模型的基础上提出了改进的方法,既提高了模型的性能,又降低了计算需求。在各种数据集上的实验证明,与基准模型相比,我们的方法在准确度上提升了 5% p,F1 得分提升了 5.6% p。此外,我们成功减少了内存成本到 0.61 倍,并实现了 1.64 倍的加速。
Jun, 2024
提出了 SpAtten,这是一种高效的算法 - 架构协同设计,利用标记稀疏性、头部稀疏性和量化机会,通过级联剪枝和渐进式量化来减少注意力计算和内存访问,实验结果证明其在 30 个基准测试中平均减少 DRAM 访问 10 倍,并且相对于其他加速器和处理器能达到巨大的加速和能耗降低。
Dec, 2020
通过树形交叉关注,Tree Cross Attention (TCA) 模块以对数复杂度 O (log (N)) 用于推理时从一组上下文标记中检索信息,与 Cross Attention 相比,TCA 在各种分类和不确定性回归任务上表现相当并且更加高效。
Sep, 2023
基于通道相似性和修剪指示器的多头注意力机制自动修剪方法,通过平衡各头通道的移除比例和通道信息的重新加权来降低计算复杂性,并在图像分类任务中表现出超越先前的高效模型和修剪方法的准确性。
May, 2024