RaViTT: 随机视觉转换器标记

Jun, 2023

RaViTT: Random Vision Transformer Tokens

Felipe A. Quezada, Carlos F. Navarro, Cristian Muñoz, Manuel Zamorano, Jorge Jara-Wilde...

TL;DR本文提出了一种称为 RaViTT 的随机采样策略，用于与现有 Vision Transformers 结合进行图像分类，实验结果表明，RaViTT 在 4 个数据集上都能提高准确性并击败了之前的最先进的数据增强技术。

Abstract

vision transformers (ViTs) have successfully been applied to image classification problems where large annotated datasets are available. On the other hand, when fewer annotations are available, such as in biomedical applications, image →

vision transformers ravitt image classification patch sampling augmentation

发现论文，激发创造

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的 Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在 ImageNet 数据集上取得了优秀的表现。

Jan, 2021

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

具有渐进采样的视觉 Transformer

本研究提出一种迭代和渐进式采样策略，以定位具有区分性的区域，并与 Vision Transformer 结合起来，形成 PS-ViT 网络。该网络可自适应地学习何时观察图像的哪些区域，从而在 ImageNet 数据集上表现出比原始 ViT 网络高 3.8％的 top-1 准确性（使用约 4 倍的参数和 10 倍的运算次数）。

Aug, 2021

LT-ViT：用于多标签胸部 X 射线分类的视觉 Transformer

利用 LT-ViT 来从多个尺度聚合信息，实现对胸部 X 光图像进行纯可视化模型训练，其优于基于纯 ViTs 的现有方法，在两个公开 CXR 数据集上表现出最先进的性能，并且对于其他预训练方法具有泛化性且不依赖于模型初始化，并且能够实现模型的可解释性而无需使用 grad-cam 及其变种。

Nov, 2023

FlexiViT：一模型多尺寸贴片处理

本文介绍一种叫做 FlexiViT 的方法，能够动态改变 ViT 模型输入的 patch size 以适应不同的计算预算，从而提高计算效率和精度。通过实验发现，FlexiViT 训练的模型在分类、图像文本检索、分割等多个任务上表现良好，易于应用于大多数基于 ViT 结构的计算任务。

Dec, 2022

视网膜视觉变换器 (RetinaViT): 将缩放图块引入视觉变换器

视网膜视觉转换器（RetinaViT）是从人类视觉系统中汲取灵感，将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明，当在 ImageNet-1K 数据集上进行训练时，RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升，这可能归因于输入中低空间频率成分的包含，从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次，为进一步研究垂直通路和注意模式打开了新的研究方向。

Mar, 2024

PaCa-ViT: 在 Vision Transformers 中学习 Patch-to-Cluster Attention

该研究论文提出了一种基于 Patch-to-Cluster attention 的 ViT 模型，通过聚类学习从而获得更好的记号以及更好的模型解释性能，并在 ImageNet-1k、MS-COCO 物体检测和实例分割以及 MIT-ADE20k 语义分割三个基准测试中获得了比 SWin 和 PVTs 更好的表现。

Mar, 2022

CrossViT: 跨注意力多尺度视觉 Transformer 用于图像分类

本文提出了一种名为 Dual-Branch Transformer 的模型，通过使用不同尺寸的图像块来获得更强的图像特征，进而学习多尺度特征表示，并采用交叉关注的方法进行多尺度特征的融合，使得计算复杂度得到控制，并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。

Mar, 2021

走向强健的视觉 Transformer

研究发现，很多 ViT 组件对鲁棒性有害，因此提出使用鲁棒组件构建 Robust Vision Transformer（RVT）网络，并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能，实验结果显示 RVT 在多项鲁棒性测试中表现优秀。

May, 2021