探索内在归纳偏差的视觉变换器高级版

Jun, 2021

探索内在归纳偏差的视觉变换器高级版

ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias

Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao

TL;DR论文提出了一种新的具有局部偏好和尺度不变性的图像模型 ——ViTAE，其利用多个卷积模块降采样并将输入图像嵌入到多尺度上下文具有丰富的令牌中，从而学习到具有鲁棒性的对象特征表示。

Abstract

transformers have shown great potential in various computer vision tasks owing to their strong capability in modeling long-range dependency using the self-attention mechanism. Nevertheless, vision transformers tr

transformers convolutions vitae scale invariance locality inductive bias

发现论文，激发创造

通过探索归纳偏见推动图像识别及更广泛领域的视觉 Transformer 进化 (ViTAEv2)

本文提出了一种利用先验卷积 IB（intrinsic bias）的 Vision transformer 架构（ViTAE）来解决长程依赖建模中存在的局限性，并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。

Feb, 2022

在小数据集上通过本地归纳偏置引入提高视觉 Transformer 的性能

本文提出基于自注意力块的局部信息增强模块 LIFE，通过提取补丁级别的局部信息并将其合并到 ViTs 的嵌入中，在小尺寸图像分类数据集上改进了 ViTs 的性能，并将其推广到目标检测和语义分割等下游任务，在此基础上，引入了一种新的可视化方法 —— 密集注意力 Roll-Out，特别适用于密集预测任务。

May, 2023

DeepViT: 朝更深层次的 Vision Transformer 进发

本文发现 Vision transformers 模型存在 attention collapse issue 现象，即 transformer 模型越深层次的注意力权重变得越相似，严重影响模型性能，提出了一种名为 Re-attention 的有效方法来解决该问题，使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。

Mar, 2021

ConViT：利用软卷积归纳偏置提升视觉 Transformer 性能

本文提出了一种形式的位置自注意力机制：门控位置自注意力，该机制能够同时具备卷积神经网络的空域学习和自注意力层的位置不变性。作者使用这种机制构建了名为 ConViT 的混合卷积 - 自注意力神经网络，通过在 ImageNet 数据集上的实验表明，该网络在图像分类任务上拥有优异的性能和更高的样本效率，并提高了对定位特征的注意力。

Mar, 2021

卷积嵌入使分层视觉 Transformer 更强大

本文研究了如何使用混合 CNN / ViTs 的宏观架构来增强分层 ViTs 的性能，特别地，我们研究了令牌嵌入层的作用，引入了卷积嵌入（CE），并系统地揭示了 CE 如何在 ViTs 中注入理想的归纳偏差。我们将最佳 CE 配置应用于 4 个最近发布的最先进的 ViT 中，有效地提高了相应的性能，并释放了一组高效的混合 CNN / ViT，名为 CETNets，可作为通用视觉骨干。

Jul, 2022

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

多维鬣狗在空间归纳偏差中的应用

通过使用基于多个轴的新型 Hyena 层，我们提出了一种不依赖于自注意力机制的高效视觉 Transformer，并且实验证明该方法在多个数据集上提升了各种 Vision Transformer 架构的性能。

Sep, 2023

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022