视网膜视觉变换器 (RetinaViT): 将缩放图块引入视觉变换器

Mar, 2024

视网膜视觉变换器 (RetinaViT): 将缩放图块引入视觉变换器

Retina Vision Transformer (RetinaViT): Introducing Scaled Patches into Vision Transformers

Yuyang Shu, Michael E. Bain

TL;DR视网膜视觉转换器（RetinaViT）是从人类视觉系统中汲取灵感，将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明，当在 ImageNet-1K 数据集上进行训练时，RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升，这可能归因于输入中低空间频率成分的包含，从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次，为进一步研究垂直通路和注意模式打开了新的研究方向。

Abstract

Humans see low and high spatial frequency components at the same time, and combine the information from both to form a visual scene. Drawing on this neuroscientific inspiration, we propose an altered

visual scene vision transformer retinavit spatial frequency components imagenet-1k dataset

发现论文，激发创造

重新思考视觉 Transformer 的空间维度

本研究通过探究卷积神经网络的空间维度转换的作用及其有效性，提出了一种基于降维思想的新型 Pooling-based Vision Transformer (PiT) 模型，实验表明 PiT 模型在图像分类、物体检测和模型鲁棒性等方面均优于原始的 Vision Transformer (ViT) 模型。

Mar, 2021

补丁是你所需的全部？

本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Jan, 2022

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

AdaViT: 自适应视觉 Transformer 用于高效图像识别

本文提出了 AdaViT，一个自适应的计算框架，旨在提高视觉变换器的推理效率，而只有 0.8％的准确率下降，并在不同的计算预算条件下实现了良好的效率 / 准确性平衡。

Nov, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

具有分层池化的可扩展视觉 Transformer

本研究提出了 Hierarchical Visual Transformer (HVT) 模型，通过逐步分池视觉标记以缩短序列长度降低计算成本，从而改进了图像分类任务的性能，并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。

Mar, 2021

多尺度视觉变换器

Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器，它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔，它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。

Apr, 2021

HSViT：水平可扩展的视觉 Transformer

这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，以减少模型的层数和参数数量，并促进 ViT 模型在多个节点上的协同训练和推理，从而实现比现有方案高多达 10% 的 top-1 准确率，证明了其在保持归纳偏差方面的优越性。

Apr, 2024

FlexiViT：一模型多尺寸贴片处理

本文介绍一种叫做 FlexiViT 的方法，能够动态改变 ViT 模型输入的 patch size 以适应不同的计算预算，从而提高计算效率和精度。通过实验发现，FlexiViT 训练的模型在分类、图像文本检索、分割等多个任务上表现良好，易于应用于大多数基于 ViT 结构的计算任务。

Dec, 2022

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021