RegionViT: 基于区域到局部的视觉转换器注意力机制
通过引入深度卷积来将局部性机制引入视觉变换器中,结果显示,在 ImageNet2012 分类任务上,增强了局部性的转换器在不增加参数和计算努力的情况下,优于基线模型 DeiT-T 和 PVT-T 达 2.6% 和 3.1%。
Apr, 2021
本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT,利用 HAT 方法分层降低全局自注意力的计算复杂度,提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证,并表现出比竞争对手更快,更准确的性能。
Jun, 2023
本文介绍了一种新的计算机视觉模型 GC ViT,核心是全局上下文自注意力模块,结合标准本地自注意力来有效地建模长程和短程空间交互关系,解决了 ViTs 的归纳偏差问题,在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。
Jun, 2022
提出了一种轻量级和高效的视觉变换模型 DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了 DualToken-ViT 的有效性,其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率,而在只有 0.5G 和 1.0G 的 FLOPs 下,我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。
Sep, 2023
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
本研究提出了一种新的混合视觉 transformer 模型 (ACC-ViT),运用区域关注和稀疏关注相结合的方式,动态地集成了局部和全局信息,同时保留了分层结构,并在常见的视觉任务中表现出色。
Jun, 2024
本文发现 Vision transformers 模型存在 attention collapse issue 现象,即 transformer 模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为 Re-attention 的有效方法来解决该问题,使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。
Mar, 2021
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
该论文提出了一种基于 ViT 和 ConvNets 的新架构 ViT-V-Net,实现了类医学图像的体积重建。实验结果表明,该方法在图像配准任务中具有优异的性能。
Apr, 2021