具有渐进采样的视觉 Transformer

ICCVAug, 2021

Vision Transformer with Progressive Sampling

Xiaoyu Yue, Shuyang Sun, Zhanghui Kuang, Meng Wei, Philip Torr...

TL;DR本研究提出一种迭代和渐进式采样策略，以定位具有区分性的区域，并与 Vision Transformer 结合起来，形成 PS-ViT 网络。该网络可自适应地学习何时观察图像的哪些区域，从而在 ImageNet 数据集上表现出比原始 ViT 网络高 3.8％的 top-1 准确性（使用约 4 倍的参数和 10 倍的运算次数）。

Abstract

Transformers with powerful global relation modeling abilities have been introduced to fundamental computer vision tasks recently. As a typical example, the vision transformer (ViT) directly applies a pure transfo

vision transformer iterative and progressive sampling ps-vit computer vision image classification

发现论文，激发创造

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

离散表示增强视觉 Transformer 的鲁棒性

本文介绍了如何通过在 ViT 的输入层添加离散 token 的方法来提高其对全局信息的学习和对真实世界数据的泛化能力，并通过实验证明对于七个 ImageNet 鲁棒性基准测试，该改进方法能够让 ViT 的鲁棒性提高最多 12%，同时不影响在 ImageNet 上的性能表现。

Nov, 2021

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的 Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在 ImageNet 数据集上取得了优秀的表现。

Jan, 2021

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

寻找高效的多阶段视觉 Transformer 模型

利用神经架构搜索（NAS）设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS，其中融合了两个技术：残差空间缩减和权重共享 NAS，实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。

Sep, 2021

视觉 Transformer：面向计算机视觉的基于令牌的图像表示和处理

本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量，从而在 ImageNet top-1 和 LIP，COCO-stuff 图像分割测试上表现出了显着的优势。

Jun, 2020

视觉 Transformer 的自动渐进式学习，用于高效训练

该论文提出一种自适应的进阶学习自动化方案 (AutoProg)，通过在训练过程中自适应决定模型的生长量、生长位置以及生长方式等策略，从而使得模型的训练能够快速加速，且不会出现性能下降。通过 DeiT 和 VOLO 等模型在 ImageNet 上的大量实验表明，AutoProg 能够将模型的训练加速高达 85.1%。

Mar, 2022

使视觉 Transformer 真正具有 Shift-Equivariant 性质

提出改进的模块设计，使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性，并在三个不同数据集上实现了有竞争力的性能表现。

May, 2023

混合分辨率令牌化的视觉 Transformer

本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量，进而实现更好的图像分类。

Apr, 2023

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024