Hiera: 一种无多余属性的分层视觉 Transformer

ICMLJun, 2023

Hiera: 一种无多余属性的分层视觉 Transformer

Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles

Chaitanya Ryali, Yuan-Ting Hu, Daniel Bolya, Chen Wei, Haoqi Fan...

TL;DR本研究旨在通过预训练一个强大的视觉预测任务（MAE）来简化现代分层视觉变压器的结构，从而创造出一个极其简单的分层视觉变压器 Hiera，并在图像和视频识别的多种任务中评估 Hiera 的性能。

Abstract

Modern hierarchical vision transformers have added several vision-specific components in the pursuit of supervised classification performance. While these components lead to effective accuracies and attractive FLOP counts, the added complexity actually makes these transformers slower t

hierarchical vision transformers pretraining mae task image recognition video recognition

发现论文，激发创造

简洁高性能的纯视觉变换语义分割

通过对简单的 Vision Transformer（ViT）模型进行高性能的分割实验，本文提出了 PlainSeg 和 PlainSeg-Hier 两种简洁高效的模型，包括了最后一个特征图的 3x3 卷积和 Transformer 编码器或解码器，并结合了高分辨率特征和更大的学习率，实验证明这些模型在语义分割中具有高性能和高效率，是评估基础模型转移能力的有力工具。

Oct, 2023

具有分层池化的可扩展视觉 Transformer

本研究提出了 Hierarchical Visual Transformer (HVT) 模型，通过逐步分池视觉标记以缩短序列长度降低计算成本，从而改进了图像分类任务的性能，并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。

Mar, 2021

HiViT: 分层视觉 Transformer 遇见掩蔽图像建模

本文提出了一种名为 HiViT 的分层视觉转换器的设计，该设计在 MIM 中具有高效性和良好的性能，通过关闭 Swim Transformer 的局部对单元操作并显示层次结构，将蒙版单元序列化为普通视觉变换器，经实证研究表明，在 ImageNet-1K 上运行 MAE，HiViT-B 相对于 ViT-B 的准确率提高了 0.6％，比 Swin-B 快了 1.9 倍，表现提高泛化到检测和分割等下游任务。

May, 2022

嵌套分层变压器：实现精准、数据高效和可解释的视觉理解

本文探讨了在图像块上嵌套局部 Transformer 并以层次化方式汇总它们的想法，并设计了一个简化的架构，它通过解耦特征学习和抽象过程，实现了对学习模型的可视化解释。

May, 2021

HSViT：水平可扩展的视觉 Transformer

这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，以减少模型的层数和参数数量，并促进 ViT 模型在多个节点上的协同训练和推理，从而实现比现有方案高多达 10% 的 top-1 准确率，证明了其在保持归纳偏差方面的优越性。

Apr, 2024

层次视觉变形器的无数据依赖模块感知剪枝

本研究提出了一种基于数据无关的模块感知剪枝方法（DIMAP），用于压缩层级视觉转换器。该方法通过分析信息失真来公正地比较不同层级的 “局部” 注意力权重的贡献，并且引入一种基于权重的新型度量，在不依赖于输入图像的情况下消除了对图块合并过程的依赖性。该方法在 ImageNet-1k 分类上以及不同尺寸的 Swin Transformers 上验证了其有效性和优势，在去除了 Swin-B 52.5％的 FLOPs 和 52.7％的参数时，仅降低了 0.07％的 Top-5 准确率；而在减少 Swin-S 33.2％的 FLOPs 和 33.2％的参数时，甚至可以实现比原模型更高的 0.8％相对 Top-5 准确率。

Apr, 2024

探索纯视觉 Transformer 主干网络在目标检测中的应用

本研究探讨使用层次结构大减的视觉变换器（ViT）作为物体检测的骨干网络，使用最小调整实现简单的特征金字塔和窗口注意力，预训练和微调使用 ViT 和掩码自编码器，提出的模型在 COCO 数据集上达到 61.3 AP_box，与使用层次骨干网络的现有领先方法相媲美。

Mar, 2022

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022

自我监督轻量级视觉 Transformer 的深入探讨

本文主要通过使用基于掩码图像建模的 MAE pre-training 方法，即 MAE-lite，来为轻量级 ViTs 的 pre-training 提供配方，并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比，分析和表明了这种 pre-training 的影响，揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用，并开发了一个 distillation 策略来提高 pre-trained representations，从而实现更好的性能。

May, 2022

Nested-TNT: 多尺度特征处理的分层视觉 Transformer

Transformer 在计算机视觉领域得到应用，其在自然语言处理方面表现出色，超越了传统卷积神经网络并取得了新的最先进结果。通过将图像分割成多个局部补丁，即 “视觉句子”，ViT 实现了这一目标。然而，图像所包含的信息是庞大而复杂的，仅关注 “视觉句子” 级别的特征是不够的。为了进一步提高性能，TNT 模型提出了进一步划分图像为更小的补丁，即 “视觉词”，得到了更准确的结果。Transformer 的核心是多头注意力机制，传统的注意力机制忽略了不同注意力头之间的相互作用。为了减少冗余并提高利用率，我们引入了嵌套算法，并将 Nested-TNT 应用于图像分类任务。实验证实，所提出的模型在数据集 CIFAR10 上比 ViT 和 TNT 分别提高了 2.25%、1.1%，在数据集 FLOWERS102 上分别提高了 2.78%、0.25% 的分类性能。

Apr, 2024