Hiera: 一种无多余属性的分层视觉 Transformer
通过对简单的 Vision Transformer(ViT)模型进行高性能的分割实验,本文提出了 PlainSeg 和 PlainSeg-Hier 两种简洁高效的模型,包括了最后一个特征图的 3x3 卷积和 Transformer 编码器或解码器,并结合了高分辨率特征和更大的学习率,实验证明这些模型在语义分割中具有高性能和高效率,是评估基础模型转移能力的有力工具。
Oct, 2023
本研究提出了 Hierarchical Visual Transformer (HVT) 模型,通过逐步分池视觉标记以缩短序列长度降低计算成本,从而改进了图像分类任务的性能,并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。
Mar, 2021
本文提出了一种名为 HiViT 的分层视觉转换器的设计,该设计在 MIM 中具有高效性和良好的性能,通过关闭 Swim Transformer 的局部对单元操作并显示层次结构,将蒙版单元序列化为普通视觉变换器,经实证研究表明,在 ImageNet-1K 上运行 MAE,HiViT-B 相对于 ViT-B 的准确率提高了 0.6%,比 Swin-B 快了 1.9 倍,表现提高泛化到检测和分割等下游任务。
May, 2022
本文探讨了在图像块上嵌套局部 Transformer 并以层次化方式汇总它们的想法,并设计了一个简化的架构,它通过解耦特征学习和抽象过程,实现了对学习模型的可视化解释。
May, 2021
这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT),通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构,以减少模型的层数和参数数量,并促进 ViT 模型在多个节点上的协同训练和推理,从而实现比现有方案高多达 10% 的 top-1 准确率,证明了其在保持归纳偏差方面的优越性。
Apr, 2024
本研究提出了一种基于数据无关的模块感知剪枝方法(DIMAP),用于压缩层级视觉转换器。该方法通过分析信息失真来公正地比较不同层级的 “局部” 注意力权重的贡献,并且引入一种基于权重的新型度量,在不依赖于输入图像的情况下消除了对图块合并过程的依赖性。该方法在 ImageNet-1k 分类上以及不同尺寸的 Swin Transformers 上验证了其有效性和优势,在去除了 Swin-B 52.5%的 FLOPs 和 52.7%的参数时,仅降低了 0.07%的 Top-5 准确率;而在减少 Swin-S 33.2%的 FLOPs 和 33.2%的参数时,甚至可以实现比原模型更高的 0.8%相对 Top-5 准确率。
Apr, 2024
本研究探讨使用层次结构大减的视觉变换器(ViT)作为物体检测的骨干网络,使用最小调整实现简单的特征金字塔和窗口注意力,预训练和微调使用 ViT 和掩码自编码器,提出的模型在 COCO 数据集上达到 61.3 AP_box,与使用层次骨干网络的现有领先方法相媲美。
Mar, 2022
本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为 ViT 的自我监督方法提供了更好的基线。
Apr, 2022
本文主要通过使用基于掩码图像建模的 MAE pre-training 方法,即 MAE-lite,来为轻量级 ViTs 的 pre-training 提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种 pre-training 的影响,揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个 distillation 策略来提高 pre-trained representations,从而实现更好的性能。
May, 2022
Transformer 在计算机视觉领域得到应用,其在自然语言处理方面表现出色,超越了传统卷积神经网络并取得了新的最先进结果。通过将图像分割成多个局部补丁,即 “视觉句子”,ViT 实现了这一目标。然而,图像所包含的信息是庞大而复杂的,仅关注 “视觉句子” 级别的特征是不够的。为了进一步提高性能,TNT 模型提出了进一步划分图像为更小的补丁,即 “视觉词”,得到了更准确的结果。Transformer 的核心是多头注意力机制,传统的注意力机制忽略了不同注意力头之间的相互作用。为了减少冗余并提高利用率,我们引入了嵌套算法,并将 Nested-TNT 应用于图像分类任务。实验证实,所提出的模型在数据集 CIFAR10 上比 ViT 和 TNT 分别提高了 2.25%、1.1%,在数据集 FLOWERS102 上分别提高了 2.78%、0.25% 的分类性能。
Apr, 2024