DeiT III:ViT 的复仇
本研究提出了一种基于卷积神经网络的归纳偏差来加速模型收敛训练的方法,不再需要观像变换器(ViTs)使用大规模的预训练数据。实验结果表明,加入归纳偏差能够显著加速 ViTs 收敛速度并用更少的参数胜过传统 CNNs。
Dec, 2021
本文研究的是计算机视觉中的自监督学习,探究了一些基本组件对自监督 ViT 训练的影响,发现稳定性是一个重要的问题,本文通过案例研究表明了部分成果实际上是不完全的失败,并探讨了当前的积极证据、挑战和开放问题。
Apr, 2021
使用 PriViT 算法,通过温和改变 Vision Transformer 结构中的非线性变换,实现了在维持预测准确性的同时,适应安全多方计算(MPC)协议的隐私预测,相比于现有方案,PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。
Oct, 2023
本文通过系统的实证研究,发现增加计算资源和数据增强可以弥补 Vision Transformers 学习小规模数据时的归纳偏差,从而实现与大规模数据学习相同精度的效果。我们在 ImageNet-21k 数据集上训练了不同规模的 ViT 模型,比大规模数据集 JFT-300M 上的同类模型表现更好。
Jun, 2021
该论文提出了一种基于 ViT 和 ConvNets 的新架构 ViT-V-Net,实现了类医学图像的体积重建。实验结果表明,该方法在图像配准任务中具有优异的性能。
Apr, 2021
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
本文研究在生成对抗网络中引入 Vision Transformers (ViTs) 架构,并通过引入创新的正则化技术(ViTGAN)解决现有正则化方法与自注意力交互不良的问题,实验表明 ViTGAN 在 CIFAR-10,CelebA 和 LSUN 卧室数据集上表现不亚于基于卷积神经网络的 StyleGAN2 的最新成果。
Jul, 2021
本文提出了 ViTAS 方法,其中使用循环权重共享机制和身份移位来解决目标嵌入的失衡问题,并辅以弱数据增强和规范化技术,以获得稳定的训练结果。实验证明,与其他常用方法相比,ViTAS 取得了极高的性能提升。
Jun, 2021
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022