即插即用:增强微小视觉变形金刚的通道混洗模块
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
通过引入单头注意力模块并利用减少空间冗余的令牌表示,本文提出了一种内在地防止头部冗余并同时通过并行结合全局和局部信息提高精度的单头视觉变换器(SHViT),在速度和准确度之间达到了最先进的权衡。
Jan, 2024
本文介绍了一种名为 ChannelViT 的模型,通过引入 Hierarchical Channel Sampling 技术对 ViT 进行改进,以增强其在多通道图像领域中的应用能力,并证明了其在分类任务上的性能优于 ViT,即使在测试期间只使用部分输入通道,ChannelViT 仍能良好地推广。同时,通过实验证明,Hierarchical Channel Sampling 作为一种简单直接的技术,可以作为 ViT 训练的有效正则化器,使得 ChannelViT 能够在稀疏传感器条件下,在有限访问所有通道的情况下有效推广,突出了其在稀疏数据情况下的潜力。
Sep, 2023
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
本研究研究了注意力机制在视觉 Transformer 中的作用,将其简化为一个名为 ShiftViT 的零参数操作,发现它在分类、检测和分割等任务中表现良好,并且性能与强基线 Swin Transformer 相当甚至更好。
Jan, 2022
本文发现 Vision transformers 模型存在 attention collapse issue 现象,即 transformer 模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为 Re-attention 的有效方法来解决该问题,使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。
Mar, 2021
该论文提出了一种名为 Shuffle Attention(SA)的机制,通过使用 Shuffle Unit 来同时描述空间和通道维度中的特征依赖关系,以有效地结合两种注意力机制。实验结果表明,该机制比当前 SOTA 方法具有更高的准确性,同时具有更低的模型复杂度。
Jan, 2021
本文提出一种新颖的本地自注意力模块 Slide Attention,使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习,适用于各种高级视觉 Transformer 模型,并在多项基准测试中实现了持续的性能改进。
Apr, 2023
本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
本研究提出了一种名为 Shuffle Transformer 的新型视觉 Transformer 架构,通过使用空间 Shuffle 策略构建窗口之间的连接,使其在分类、检测和分割等视觉任务中获得卓越表现。
Jun, 2021