高效视觉 Transformer 的多标准令牌融合与一步式注意力
本文提出一种新的 token pruning 方法,通过筛选关键词实现计算效率和模型效果的折衷,实验结果表明,该方法可显著降低计算成本,同时仅导致 0.1% 的 DeiT-S 识别精度下降。
Jun, 2023
提出了一种轻量级和高效的视觉变换模型 DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了 DualToken-ViT 的有效性,其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率,而在只有 0.5G 和 1.0G 的 FLOPs 下,我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。
Sep, 2023
通过融合 Token Fusion 方法来提高 Vision Transformers 的计算效率和模型准确性,使其适用于资源受限的边缘设备,并在分类和图像生成任务中建立新的基准。
Dec, 2023
我们提出了一种联合压缩方法,用于 Vision Transformers(ViTs),旨在提供高准确性和快速推理速度,同时保持对下游任务的有利可传输性。具体来说,我们引入了不对称的令牌合并(ATME)策略来有效集成相邻的令牌,并引入一致的动态通道修剪(CDCP)策略来动态修剪 ViTs 中的不重要通道,大大提高了模型压缩效果。在基准数据集上进行的广泛实验表明,我们的方法在各种 ViTs 上都可以达到最先进的性能。
Sep, 2023
本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法,以提高模型的计算效率和识别准确率。结果表明,该方法能够在保持相同的计算成本的前提下,提高模型的输入规模并提高模型的识别准确率。
Feb, 2022
本文提出了一个基于 Transformer 的框架,通过聚合特征来处理细粒度视觉分类任务,其中引入了一种新的令牌选择模块(MAWS)来引导网络有效地选择具有判别性的令牌,从而实现了最先进的性能。
Jul, 2021
本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
提出了一种动态的、基于输入的 Token 稀疏化框架,通过阈值删除多余的信息元素,并通过自注意力网络的特性,使其仍然具有硬件友好性。在保证精度的同时,相比现有 CNN 和 Transformer 模型,通过分层删减 66% 的输入元素,可以大大减少 FLOPs、提高吞吐量。
Jun, 2021
通过引入动态令牌过渡视觉转换器(DoViT)对图像进行语义分割,适应性地降低了不同复杂度图像的推理成本,通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准,利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分,通过令牌的分离计算,使用稀疏令牌加速自注意层,并在硬件上保持友好性,构建令牌重建模块以收集和重置分组令牌到序列中的原始位置,这对于预测正确的语义掩码是必要的,我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40%〜60%的 FLOPs,mIoU 的降低在 0.8%以内,并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。
Aug, 2023
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021