规模化半监督视觉 Transformer 模型
本研究探讨了 Semi-ViT,一种使用半监督学习技术微调 ViT 模型的图像分类方法,该方法更适用于缺乏注释数据的情况,特别是在电子商务等领域。我们的研究发现,即使在有限的注释数据的情况下,Semi-ViT 的性能也优于传统卷积神经网络(CNN)和 ViT。这些发现表明,Semi-ViT 在需要精细分类视觉数据的应用领域具有重要的应用前景。
May, 2023
本文研究的是计算机视觉中的自监督学习,探究了一些基本组件对自监督 ViT 训练的影响,发现稳定性是一个重要的问题,本文通过案例研究表明了部分成果实际上是不完全的失败,并探讨了当前的积极证据、挑战和开放问题。
Apr, 2021
Vision Transformers (ViTs) 使用自我监督学习 (SSAT) 作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现,此方法能帮助 ViTs 充分利用自我监督任务和主任务的独特特点,展现出优于传统的 ViTs 预训练与后续微调的效果,并在 10 个数据集的实验证明了 SSAT 的显著性提升并减少了碳足迹,同时在视频领域的 Deepfake 检测上也验证了其普遍适用性。
Oct, 2023
本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务,利用 ViT 的特性,在无需人工注释的情况下提高不同类型视觉任务的性能,通过训练神经网络对各种图像的无监督学习来实现。
Jun, 2022
我们提出了一种利用自监督预训练的视觉 Transformer(ViT)来解决弱监督少样本图像分类和分割的方法,通过自注意力机制,利用自监督 ViT 的标记表示,通过独立的任务头预测分类和分割结果。实验结果表明,我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割,只使用图像级别标签,并且在少量或无像素级标签的情况下表现出显著的性能提升。
Jul, 2023
本文研究了视觉 Transformer 在半监督图像分类中的训练方法,通过引入一个联合半监督学习框架 Semiformer,实现了有标记数据与无标记数据的知识共享,从而取得了 ImageNet 数据集上 75.5% 的 top-1 准确率,成为同类方法中最具优势的方法之一。
Nov, 2021
本研究探讨了视觉变换器 (ViT) 在少样本学习中的能力,发现在相同的少样本学习框架下,用 ViT 模型替换常用的 CNN 特征提取器会严重削弱少样本分类性能;本研究提出了一种名为 Self-promoted sUpervisioN (SUN) 的简单而有效的 ViT 少样本训练框架,用于改善 token 依赖性问题,并通过实验证明了 SUN 优于其他同类技术,并超过了 CNN 的最新研究成果。
Mar, 2022
本文主要通过使用基于掩码图像建模的 MAE pre-training 方法,即 MAE-lite,来为轻量级 ViTs 的 pre-training 提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种 pre-training 的影响,揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个 distillation 策略来提高 pre-trained representations,从而实现更好的性能。
May, 2022
这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT),通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构,以减少模型的层数和参数数量,并促进 ViT 模型在多个节点上的协同训练和推理,从而实现比现有方案高多达 10% 的 top-1 准确率,证明了其在保持归纳偏差方面的优越性。
Apr, 2024
本文研究了发展高效的自监督视觉变换器(EsViT)的两种技术,第一,我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性,但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二,我们提出了新的预训练任务区域匹配,允许模型捕捉细粒度区域依赖性,从而显着提高了学习到的视觉表示的质量。我们的结果表明,结合这两种技术,EsViT 在 ImageNet 线性探针评估中达到 81.3%的 top-1,超过以前的艺术水平,吞吐量大约高一个数量级。在转移到下游线性分类任务时,EsViT 在 18 个数据集中的 17 个数据集上优于其受监督的对应物。代码和模型可公开获取:该 URL。
Jun, 2021