使视觉 Transformer 真正具有 Shift-Equivariant 性质

May, 2023

使视觉 Transformer 真正具有 Shift-Equivariant 性质

Making Vision Transformers Truly Shift-Equivariant

Renan A. Rojas-Gomez, Teck-Yian Lim, Minh N. Do, Raymond A. Yeh

TL;DR提出改进的模块设计，使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性，并在三个不同数据集上实现了有竞争力的性能表现。

Abstract

For computer vision tasks, vision transformers (ViTs) have become one of the go-to deep net architectures. Despite being inspired by Convolutional Neural Networks (CNNs), ViTs remain sensitive to small shifts in the input image. To address this, we introduce novel designs for each of t

vision transformers shift-equivariant modules image classification semantic segmentation

发现论文，激发创造

唤醒视觉 Transformer 中的平移等变性

本文提出了一种自适应的多相位锚定算法，该算法可无缝集成到视觉 Transformer 模型中，以确保贴片嵌入和子采样关注模块的移位等变，并利用深度卷积编码位置信息。

Jun, 2023

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

ViTAS: 视觉 Transformer 架构搜索

本文提出了 ViTAS 方法，其中使用循环权重共享机制和身份移位来解决目标嵌入的失衡问题，并辅以弱数据增强和规范化技术，以获得稳定的训练结果。实验证明，与其他常用方法相比，ViTAS 取得了极高的性能提升。

Jun, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

CvT：将卷积引入视觉 Transformer

本文提出了名为 CvT 的新型架构，它通过将卷积引入 ViT 中实现了性能和效率的提升，并在 ImageNet-1K 上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

通过 Token 重组加速视觉 Transformer：并非所有的修补程序都是您所需的

本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法，以提高模型的计算效率和识别准确率。结果表明，该方法能够在保持相同的计算成本的前提下，提高模型的输入规模并提高模型的识别准确率。

Feb, 2022

Vision Conformer：将卷积融入 Vision Transformer 层中

本研究通过将卷积神经网络与神经网络模型 Transformer 相结合，提出了一种名为 “Vision Conformer” 的模型，并通过实验证明了此模型对 ViT 图像识别能力的提升。

Apr, 2023

$E (2)$- 等变视觉转换器

本文介绍了一种利用新型有效的位置编码操作符来设计 Group Equivariant Vision Transformer（GE-ViT）模型来解决 Vision Transformer（ViT）模型中的内在等变性学习问题，通过实验在标准基准数据集上得出 GE-ViT 模型比不等变自注意力网络性能更好的结论。

Jun, 2023

视觉 Transformer 的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021