从路径集合的角度重新审视视觉 Transformer
本文提出了一种新型的多路径视觉 Transformer(MPViT),通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌,将令牌按比例分为多个分支,并对分支进行处理,从而获得丰富的、多尺度的特征表示,在各项指标上均优于当前其他前沿网络,具有广泛的应用前景。
Dec, 2021
本研究通过提出两种攻击策略,Self-Ensemble 和 Token Refinement,充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。
Jun, 2021
基于自注意力机制的视觉转换器(ViTs)因其对长距离空间依赖关系和大规模训练的出色能力而受到了广泛的关注,然而,其二次复杂度限制了其在许多需要快速推理的场景中的应用。受到自然语言处理中并行化模型的启发,我们提出了一种新的计算机视觉模型,命名为视觉保留网络(ViR),具有双并行和循环结构,以在快速推理和并行训练之间达到最佳平衡,并在需要更高分辨率图像的任务中具有可扩展性。ViR 是第一个尝试在通用视觉骨干网络中实现双并行和循环等效性的方法,我们通过大量实验证实了 ViR 的有效性,并提供了代码和预训练模型的公开获取。
Oct, 2023
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
通过研究广泛任务中视觉变换器(ViTs)与卷积神经网络(CNNs)的对比,探讨了 ViTs 的多属性学习能力,并提出了通过单个 ViT 网络训练多个属性的简单而有效的策略。通过对 CelebA 数据集的实证研究,验证了多属性 ViTs 在对抗攻击和 Patch-Fool 等最新变换器攻击下的鲁棒性。
Feb, 2024
本研究通过将卷积神经网络与神经网络模型 Transformer 相结合,提出了一种名为 “Vision Conformer” 的模型,并通过实验证明了此模型对 ViT 图像识别能力的提升。
Apr, 2023
基于观察到的异构注意力模式,在 Vision Transformers 中提出了一种综合压缩方法,通过动态引导的静态自注意力和全局聚合金字塔,加速了运行时间吞吐量,超过了所有 SOTA 方法。
Oct, 2023
研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
本文揭示了多头自注意力机制(MSAs)成功的原因及其背后的模型特性,提出了替代 CNN 模型的 AlterNet 模型,并证明了其在小规模及大规模数据集上的优越性。
Feb, 2022
本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法,以提高模型的计算效率和识别准确率。结果表明,该方法能够在保持相同的计算成本的前提下,提高模型的输入规模并提高模型的识别准确率。
Feb, 2022