MaxViT:多轴视觉变压器
提出了 MaxViT-UNet,一种基于编码器 - 解码器的混合视觉 Transformer,用于医学图像分割,其使用多轴自注意力机制实现了胞核区域的准确分割,并在 MoNuSeg 数据集上实现了比以前的 CNN only 和 Transformer only 技术更好的 Dice 指标。
May, 2023
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT,利用 HAT 方法分层降低全局自注意力的计算复杂度,提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证,并表现出比竞争对手更快,更准确的性能。
Jun, 2023
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
本文发现 Vision transformers 模型存在 attention collapse issue 现象,即 transformer 模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为 Re-attention 的有效方法来解决该问题,使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。
Mar, 2021
本文介绍了一种新的计算机视觉模型 GC ViT,核心是全局上下文自注意力模块,结合标准本地自注意力来有效地建模长程和短程空间交互关系,解决了 ViTs 的归纳偏差问题,在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。
Jun, 2022
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
通过从视觉感知中汲取灵感进行注意机制创新,Transformer 已经成为最先进的视觉架构。本文引入了一种融合区域和稀疏注意力的 Atrous Attention,它能够自适应地整合局部和全局信息,并保持层次关系,提出了一种通用的混合式视觉 Transformer 骨干网络 ACC-ViT,适用于标准视觉任务和移动规模版本,适用于具有小数据集的特定应用领域。
Mar, 2024
本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
本文提出 Dual Attention Vision Transformers (DaViT) 网络,该网络通过自我注意机制能够捕获全局信息,同时保持计算效率,并在图片分类任务上取得了最先进的表现。
Apr, 2022