$E (2)$- 等变视觉转换器
提出改进的模块设计,使得 Vision Transformers 在图像分类和语义分割任务中具有真正的平移不变性,并在三个不同数据集上实现了有竞争力的性能表现。
May, 2023
本文提出了一种自适应的多相位锚定算法,该算法可无缝集成到视觉 Transformer 模型中,以确保贴片嵌入和子采样关注模块的移位等变,并利用深度卷积编码位置信息。
Jun, 2023
使用 Vision Transformers 进行语义分割的研究,提出了 SegViTv2,通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本,同时在持续学习的环境下实现近乎零遗忘。实验结果表明,SegViT 优于当前流行的语义分割方法。
Jun, 2023
本文介绍了一种基于信息矫正模块和分布引导蒸馏方案的量化视觉变换器压缩方法,可以在 ImageNet 数据集上实现高达 80.9%的准确性,并且比全精度对应物超过 1.0%的 Top-1 精度。
Oct, 2022
我们提出了一种名为 LookHere 的新方法,用于限制 2D 注意力掩码中的固定视野的注意力头,提供平移等变性,确保注意力头的多样性,并限制注意力头在外推时面临的分布偏移,从而改善图像分类、对抗攻击和校准误差的性能。该方法在 ImageNet 数据集上进行了测试,结果显示 LookHere 在高分辨率图像分类任务中表现优于当前位置编码方法 2D-RoPE。
May, 2024
本研究提出了一种新颖的高斯混合蒙版(GMM)方法,在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer(ViT)在小数据集上的性能,实验证明该方法对于提升 ViT 的效果显著,几乎不增加额外参数或计算成本。
Sep, 2023
本文研究了发展高效的自监督视觉变换器(EsViT)的两种技术,第一,我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性,但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二,我们提出了新的预训练任务区域匹配,允许模型捕捉细粒度区域依赖性,从而显着提高了学习到的视觉表示的质量。我们的结果表明,结合这两种技术,EsViT 在 ImageNet 线性探针评估中达到 81.3%的 top-1,超过以前的艺术水平,吞吐量大约高一个数量级。在转移到下游线性分类任务时,EsViT 在 18 个数据集中的 17 个数据集上优于其受监督的对应物。代码和模型可公开获取:该 URL。
Jun, 2021
这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT),通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构,以减少模型的层数和参数数量,并促进 ViT 模型在多个节点上的协同训练和推理,从而实现比现有方案高多达 10% 的 top-1 准确率,证明了其在保持归纳偏差方面的优越性。
Apr, 2024
使用 PriViT 算法,通过温和改变 Vision Transformer 结构中的非线性变换,实现了在维持预测准确性的同时,适应安全多方计算(MPC)协议的隐私预测,相比于现有方案,PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。
Oct, 2023
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021