具有补丁多样化的视觉 Transformer

Apr, 2021

Vision Transformers with Patch Diversification

Chengyue Gong, Dilin Wang, Meng Li, Vikas Chandra, Qiang Liu

TL;DR本文提出一种新的损失函数来促进视觉转换器中提取的补丁表示的差异性，以稳定训练并改善下游的语义分割任务的结果。实验证明，这种方法可以训练更广泛和更深的视觉转换器，并在 Cityscapes 和 ADE20k 上增强了最新的结果。

Abstract

vision transformer has demonstrated promising performance on challenging computer vision tasks. However, directly training the vision transformers may yield unstable and sub-optimal results. Recent works propose to improve the performance of the vision transformers by modifying the tra

vision transformer self-attention diversity loss wide and deep models semantic segmentation

发现论文，激发创造

视觉 Transformer 中的多样特征学习以提高泛化性能

通过修剪与不必要特征相关的注意力头和鼓励输入梯度正交性，我们提出一种方法提高深度学习模型对分布变化的适应性并增加特征的多样性和互补性。

Aug, 2023

高效视觉 Transformer 的 Patch Slimming

该论文通过挖掘网络中的冗余计算研究视觉变换器的效率问题，并提出了一种新颖的修剪方法来减少计算成本，该方法称为修剪补丁法，可以移除无用的补丁，从而显著降低模型的计算成本，而不会影响模型的性能。

Jun, 2021

补丁是你所需的全部？

本文介绍 ConvMixer 模型，它使用标准卷积来混合图像块，并在类似参数计数和数据集大小的情况下胜过 ViT、MLP-Mixer 和一些变种，同时也优于经典的 ResNet 等视觉模型。

Jan, 2022

平滑视觉变换器下的认证补丁鲁棒性

本文探讨使用视觉变换器在不引起重大标准准确度降低的情况下，显著提高认证补丁鲁棒性和计算效率的能力。

Oct, 2021

Vision Transformer 对补丁扰动具有鲁棒性吗？

该论文基于自然污染和对抗攻击的影响，研究了视觉变压器（ViT）和卷积神经网络（CNN）在图像分类中的表现，发现 ViTs 对自然污染更具鲁棒性，但易受对抗性攻击，然后提出了一种简单的基于温度缩放的方法来提高 ViT 对对抗性攻击的鲁棒性。

Nov, 2021

基于 Vision Transformer 的实用可验证补丁防御

利用 Vision Transformer 结合 Derandomized Smoothing 进行逐步平滑的图像建模任务来训练并提高证明补丁防御机制的可证准确性，同时重构了原始的 ViT 的全局自注意结构以适用于在实际世界中的高效推理和部署。在 ImageNet 数据集上，在 2% 区域补丁攻击下，本文方法达到 41.70% 的证明准确度，比之前最佳方法高出近 1 倍（26.00%）。同时，本方法达到了 78.58% 的干净准确度，接近正常 ResNet-101 的准确度，并在 CIFAR-10 和 ImageNet 上实现最先进的干净和证明准确度。

Mar, 2022

Vision Transformers 三要素

本文提出了三种易于实现的视觉 Transformer 变体。第一，可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二，对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务，这节省了计算量，减少了微调时的峰值内存消耗，并允许跨任务共享大部分权重。第三，添加基于 MLP 的补丁预处理层，可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响，并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。

Mar, 2022

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

针对自监督视觉变换器的补丁级别表示学习

本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务，利用 ViT 的特性，在无需人工注释的情况下提高不同类型视觉任务的性能，通过训练神经网络对各种图像的无监督学习来实现。

Jun, 2022

补丁不是全部所需

我们提出了一种新的模式转换器 (Pattern Transformer)，通过卷积神经网络从输入图像中提取各种模式，将每个通道表示为一个独特的模式，并将其作为视觉令牌输入到后续的 Transformer 模型中，从而实现对图像的自适应转换。在 CIFAR-10 数据集和 CIFAR-100 数据集上，我们通过仅使用通用 ResNet 和 Transformer 模型，取得了最新的性能，并在 ImageNet 上取得了优异的结果。

Aug, 2023