PSViT: 通过 Token 池化和注意力共享改进 Vision Transformer
通过在视觉 Transformer 模型中集成令牌剪枝和令牌汇聚技术,我们提出了一种名为令牌剪枝和汇聚 Transformer(PPT)的新型加速框架,通过启发式方法自适应地应对两种不同层次的冗余,有效降低模型复杂性同时保持其预测准确性。例如,PPT 在 ImageNet 数据集上使 DeiT-S 的 FLOPs 降低了 37%,吞吐量提高了 45% 以上,而没有准确性下降。
Oct, 2023
本研究提出了 Hierarchical Visual Transformer (HVT) 模型,通过逐步分池视觉标记以缩短序列长度降低计算成本,从而改进了图像分类任务的性能,并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。
Mar, 2021
本文介绍了一种基于语义标记的 ViT 模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行 attention 的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少 Vision Transformer 计算成本,并满足移动设备和 FPGA 的资源规格要求,甚至在移动平台上实现 DeiT-T 的实时执行。
Dec, 2021
该研究提出了一种称作 Token Pooling 的新型令牌下采样方法,旨在提高对视觉变换的计算速度,并通过对 softmax 注意力机制的研究,实现了更好的计算速度与精度之间的平衡。
Oct, 2021
提出了一种轻量级和高效的视觉变换模型 DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了 DualToken-ViT 的有效性,其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率,而在只有 0.5G 和 1.0G 的 FLOPs 下,我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。
Sep, 2023
通过引入动态令牌过渡视觉转换器(DoViT)对图像进行语义分割,适应性地降低了不同复杂度图像的推理成本,通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准,利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留 / 停止部分,通过令牌的分离计算,使用稀疏令牌加速自注意层,并在硬件上保持友好性,构建令牌重建模块以收集和重置分组令牌到序列中的原始位置,这对于预测正确的语义掩码是必要的,我们在两个常见的语义分割任务上进行了大量实验证明我们的方法在各种分割转换中大大减少了 40%〜60%的 FLOPs,mIoU 的降低在 0.8%以内,并且 Cityscapes 上的 ViT-L/B 的吞吐量和推理速度增加了 2 倍以上。
Aug, 2023
本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法,以提高模型的计算效率和识别准确率。结果表明,该方法能够在保持相同的计算成本的前提下,提高模型的输入规模并提高模型的识别准确率。
Feb, 2022
本文提出一种新的 token pruning 方法,通过筛选关键词实现计算效率和模型效果的折衷,实验结果表明,该方法可显著降低计算成本,同时仅导致 0.1% 的 DeiT-S 识别精度下降。
Jun, 2023
提出了一种动态的、基于输入的 Token 稀疏化框架,通过阈值删除多余的信息元素,并通过自注意力网络的特性,使其仍然具有硬件友好性。在保证精度的同时,相比现有 CNN 和 Transformer 模型,通过分层删减 66% 的输入元素,可以大大减少 FLOPs、提高吞吐量。
Jun, 2021