$E (2)$- 等变视觉转换器

Jun, 2023

$E(2)$-Equivariant Vision Transformer

Renjun Xu, Kaifan Yang, Ke Liu, Fengxiang He

TL;DR本文介绍了一种利用新型有效的位置编码操作符来设计 Group Equivariant Vision Transformer（GE-ViT）模型来解决 Vision Transformer（ViT）模型中的内在等变性学习问题，通过实验在标准基准数据集上得出 GE-ViT 模型比不等变自注意力网络性能更好的结论。

Abstract

vision transformer (ViT) has achieved remarkable performance in computer vision. However, positional encoding in ViT makes it substantially difficult to learn the intrinsic →

vision transformer positional encoding equivariance group equivariant vision transformer neural network

发现论文，激发创造

使视觉 Transformer 真正具有 Shift-Equivariant 性质

提出改进的模块设计，使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性，并在三个不同数据集上实现了有竞争力的性能表现。

May, 2023

唤醒视觉 Transformer 中的平移等变性

本文提出了一种自适应的多相位锚定算法，该算法可无缝集成到视觉 Transformer 模型中，以确保贴片嵌入和子采样关注模块的移位等变，并利用深度卷积编码位置信息。

Jun, 2023

SegViTv2: 使用纯视觉 Transformer 探索高效持续语义分割

使用 Vision Transformers 进行语义分割的研究，提出了 SegViTv2，通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本，同时在持续学习的环境下实现近乎零遗忘。实验结果表明，SegViT 优于当前流行的语义分割方法。

Jun, 2023

Q-ViT: 准确的、完全量化的低位视觉 Transformer

本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法，可以在 ImageNet 数据集上实现高达 80.9％的准确性，并且比全精度对应物超过 1.0％的 Top-1 精度。

Oct, 2022

LookHere: 有向注意力的视觉 Transformer 进行泛化和外推

我们提出了一种名为 LookHere 的新方法，用于限制 2D 注意力掩码中的固定视野的注意力头，提供平移等变性，确保注意力头的多样性，并限制注意力头在外推时面临的分布偏移，从而改善图像分类、对抗攻击和校准误差的性能。该方法在 ImageNet 数据集上进行了测试，结果显示 LookHere 在高分辨率图像分类任务中表现优于当前位置编码方法 2D-RoPE。

May, 2024

CNN 还是 ViT？透过卷积再探视觉 Transformer

本研究提出了一种新颖的高斯混合蒙版（GMM）方法，在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer（ViT）在小数据集上的性能，实验证明该方法对于提升 ViT 的效果显著，几乎不增加额外参数或计算成本。

Sep, 2023

高效自监督视觉 Transformer 模型用于表示学习

本文研究了发展高效的自监督视觉变换器（EsViT）的两种技术，第一，我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性，但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二，我们提出了新的预训练任务区域匹配，允许模型捕捉细粒度区域依赖性，从而显着提高了学习到的视觉表示的质量。我们的结果表明，结合这两种技术，EsViT 在 ImageNet 线性探针评估中达到 81.3％的 top-1，超过以前的艺术水平，吞吐量大约高一个数量级。在转移到下游线性分类任务时，EsViT 在 18 个数据集中的 17 个数据集上优于其受监督的对应物。代码和模型可公开获取：该 URL。

Jun, 2021

HSViT：水平可扩展的视觉 Transformer

这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，以减少模型的层数和参数数量，并促进 ViT 模型在多个节点上的协同训练和推理，从而实现比现有方案高多达 10% 的 top-1 准确率，证明了其在保持归纳偏差方面的优越性。

Apr, 2024

PriViT：用于快速私密推理的视觉 Transformer

使用 PriViT 算法，通过温和改变 Vision Transformer 结构中的非线性变换，实现了在维持预测准确性的同时，适应安全多方计算（MPC）协议的隐私预测，相比于现有方案，PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。

Oct, 2023

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021