快速视觉Transformer模型:具有分层注意力机制
本文发现Vision transformers模型存在attention collapse issue现象,即transformer模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为Re-attention的有效方法来解决该问题,使得32层的Vision transformers模型在ImageNet数据集的Top-1分类准确率上提高了1.6%。
Mar, 2021
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉transformer(ViT)变体。
Jun, 2021
通过利用输入令牌稀疏性并提出计算感知的软剪枝框架,可以大幅减少Vision Transformer计算成本,并满足移动设备和FPGA的资源规格要求,甚至在移动平台上实现DeiT-T的实时执行。
Dec, 2021
该研究通过引入多轴关注模型和卷积等新元素,提出了一种高效且可扩展的注意力模型,即MaxViT。利用MaxViT作为骨干网络,在图像分类和物体检测等任务上都取得了领先的性能。同时,该模型还证明了其在图像生成方面的潜在优势。
Apr, 2022
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
本研究提出一种高速的视觉Transformer模型EfficientViT,通过优化Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
轻量级视觉变换器(ViTs)相较于资源受限的移动设备上的轻量级卷积神经网络(CNNs),通过多头自注意模块获得更高的性能和更低的延迟。本研究回顾了轻量级CNNs的高效设计,强调其在移动设备上的潜力,并通过整合轻量级ViTs的高效架构选择增强了一种新的纯轻量级CNNs家族,即RepViT。大量实验证明,RepViT优于现有的轻量级ViTs,并在各种视觉任务中具有有利的延迟。在ImageNet上,RepViT在iPhone 12上实现了超过80%的top-1准确性,延迟接近1毫秒,这在我们的知识范围内是轻量级模型的首次。我们最大的模型RepViT-M3在仅1.3毫秒延迟下获得了81.4%的准确性。代码和训练模型可在https://github.com/jameslahm/RepViT找到。
Jul, 2023
通过引入单头注意力模块并利用减少空间冗余的令牌表示,本文提出了一种内在地防止头部冗余并同时通过并行结合全局和局部信息提高精度的单头视觉变换器(SHViT),在速度和准确度之间达到了最先进的权衡。
Jan, 2024
一种基于高分辨率输入的新型混合主干网络(HIRI-ViT),通过将典型的卷积神经网络操作分解为两个并行的卷积神经网络分支来构建,一个直接以高分辨率特征为输入,但使用更少的卷积操作,另一个首先进行下采样,然后在低分辨率特征上使用更多的卷积操作,通过对ImageNet、COCO和ADE20K数据集的实验表明了HIRI-ViT的优越性。
Mar, 2024
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024