RaViTT: 随机视觉转换器标记
本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的 Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在 ImageNet 数据集上取得了优秀的表现。
Jan, 2021
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021
通过引入基于分割模型的新型分词器策略,语义视觉转换器(sViT)在捕获显著特征和全局依赖关系的同时,提高了解释性和鲁棒性,相较于传统视觉转换器模型(ViT)在训练数据需求、分布泛化和解释性方面表现得更优。
Feb, 2024
本研究提出一种迭代和渐进式采样策略,以定位具有区分性的区域,并与 Vision Transformer 结合起来,形成 PS-ViT 网络。该网络可自适应地学习何时观察图像的哪些区域,从而在 ImageNet 数据集上表现出比原始 ViT 网络高 3.8%的 top-1 准确性(使用约 4 倍的参数和 10 倍的运算次数)。
Aug, 2021
利用 LT-ViT 来从多个尺度聚合信息,实现对胸部 X 光图像进行纯可视化模型训练,其优于基于纯 ViTs 的现有方法,在两个公开 CXR 数据集上表现出最先进的性能,并且对于其他预训练方法具有泛化性且不依赖于模型初始化,并且能够实现模型的可解释性而无需使用 grad-cam 及其变种。
Nov, 2023
本文介绍一种叫做 FlexiViT 的方法,能够动态改变 ViT 模型输入的 patch size 以适应不同的计算预算,从而提高计算效率和精度。通过实验发现,FlexiViT 训练的模型在分类、图像文本检索、分割等多个任务上表现良好,易于应用于大多数基于 ViT 结构的计算任务。
Dec, 2022
视网膜视觉转换器(RetinaViT)是从人类视觉系统中汲取灵感,将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明,当在 ImageNet-1K 数据集上进行训练时,RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升,这可能归因于输入中低空间频率成分的包含,从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次,为进一步研究垂直通路和注意模式打开了新的研究方向。
Mar, 2024
该研究论文提出了一种基于 Patch-to-Cluster attention 的 ViT 模型,通过聚类学习从而获得更好的记号以及更好的模型解释性能,并在 ImageNet-1k、MS-COCO 物体检测和实例分割以及 MIT-ADE20k 语义分割三个基准测试中获得了比 SWin 和 PVTs 更好的表现。
Mar, 2022
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
研究发现,很多 ViT 组件对鲁棒性有害,因此提出使用鲁棒组件构建 Robust Vision Transformer(RVT)网络,并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能,实验结果显示 RVT 在多项鲁棒性测试中表现优秀。
May, 2021