CrossViT: 跨注意力多尺度视觉Transformer用于图像分类
本文发现Vision transformers模型存在attention collapse issue现象,即transformer模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为Re-attention的有效方法来解决该问题,使得32层的Vision transformers模型在ImageNet数据集的Top-1分类准确率上提高了1.6%。
Mar, 2021
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉transformer(ViT)变体。
Jun, 2021
探索使用Cross Attention机制替代传统的self-attention机制在计算机视觉任务中实现Transformer的实用性,实验表明该机制在ImageNet-1K、COCO和ADE20K等任务上可以达到先进水平,并且降低了计算量。
Jun, 2021
本研究提出了CEI和LSDA来解决现有视觉transformer无法处理不同尺度特征相互作用的问题,并基于多尺度注意力模块设计了一种适用于可变尺寸输入的通用视觉架构CrossFormer.
Jul, 2021
本篇论文提出了一种PSViT视觉变换器,通过令每个transformer层与其相邻层共享注意力映射和减少空间级别上的特征数量来降低冗余,实现更好的速度和准确性
Aug, 2021
本文提出Dual Attention Vision Transformers (DaViT)网络,该网络通过自我注意机制能够捕获全局信息,同时保持计算效率,并在图片分类任务上取得了最先进的表现。
Apr, 2022
提出了一种轻量级和高效的视觉变换模型DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了DualToken-ViT的有效性,其在ImageNet-1K数据集上取得了75.4%和79.4%的准确率,而在只有0.5G和1.0G的FLOPs下,我们的1.0G FLOPs的模型的性能超过了使用全局标记的LightViT-T模型0.7%。
Sep, 2023
通过引入新的残差注意力学习方法来改善Vision Transformer (ViT) 架构,包括增加视觉特征多样性和模型的鲁棒性,以提高识别系统的准确性。在五个图像分类基准测试中,通过对ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102和Oxford-IIIT Pet数据集的评估,显示出所提方法的有效性和鲁棒性。此外,该方法在COCO2017数据集上的实验表明,在空间感知转换器模型中实现时,能发现和整合目标检测和目标实例分割的语义和空间关系。
Feb, 2024
通过多标准令牌融合(MCTF)方法,结合多样性关系和信息损失的最小化,实现了图像分类中速度和准确性的平衡。在多个实验中,MCTF在不降低性能的情况下,显著减少了计算量并提高了模型的性能。
Mar, 2024
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024