PSViT: 通过 Token 池化和注意力共享改进 Vision Transformer
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
提出了一种动态的、基于输入的Token稀疏化框架,通过阈值删除多余的信息元素,并通过自注意力网络的特性,使其仍然具有硬件友好性。在保证精度的同时,相比现有CNN和Transformer模型,通过分层删减66%的输入元素,可以大大减少FLOPs、提高吞吐量。
Jun, 2021
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉transformer(ViT)变体。
Jun, 2021
该研究提出了一种称作 Token Pooling 的新型令牌下采样方法,旨在提高对视觉变换的计算速度,并通过对 softmax 注意力机制的研究,实现了更好的计算速度与精度之间的平衡。
Oct, 2021
本文提出了AdaViT,一个自适应的计算框架,旨在提高视觉变换器的推理效率,而只有0.8%的准确率下降,并在不同的计算预算条件下实现了良好的效率/准确性平衡。
Nov, 2021
本论文提出了一种在Vision Transformer模型的前向推理过程中重新组织图像tokens的方法,以提高模型的计算效率和识别准确率。结果表明,该方法能够在保持相同的计算成本的前提下,提高模型的输入规模并提高模型的识别准确率。
Feb, 2022
本文介绍了一种基于语义标记的ViT模型,可以用于图像分类以及物体检测和实例分割等任务,并通过对空间中的池化图像标记进行attention的方法,来取代大量的图像标记,从而实现了网络的降维升效。
Mar, 2023
通过在视觉Transformer模型中集成令牌剪枝和令牌汇聚技术,我们提出了一种名为令牌剪枝和汇聚Transformer(PPT)的新型加速框架,通过启发式方法自适应地应对两种不同层次的冗余,有效降低模型复杂性同时保持其预测准确性。例如,PPT在ImageNet数据集上使DeiT-S的FLOPs降低了37%,吞吐量提高了45%以上,而没有准确性下降。
Oct, 2023
通过引入新的残差注意力学习方法来改善Vision Transformer (ViT) 架构,包括增加视觉特征多样性和模型的鲁棒性,以提高识别系统的准确性。在五个图像分类基准测试中,通过对ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102和Oxford-IIIT Pet数据集的评估,显示出所提方法的有效性和鲁棒性。此外,该方法在COCO2017数据集上的实验表明,在空间感知转换器模型中实现时,能发现和整合目标检测和目标实例分割的语义和空间关系。
Feb, 2024
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024