有限数据，无限潜力：ViT与遮蔽自编码器增强的研究

Oct, 2023

有限数据，无限潜力：ViT与遮蔽自编码器增强的研究

Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked Autoencoders

Srijan Das, Tanmay Jain, Dominick Reilly, Pranav Balaji, Soumyajit Karmakar...

TL;DRVision Transformers (ViTs)使用自我监督学习(SSAT)作为辅助任务与主任务同时进行联合优化，以在有限的数据量下取得更好的性能表现，此方法能帮助ViTs充分利用自我监督任务和主任务的独特特点，展现出优于传统的ViTs预训练与后续微调的效果，并在10个数据集的实验证明了SSAT的显著性提升并减少了碳足迹，同时在视频领域的Deepfake检测上也验证了其普遍适用性。

Abstract

vision transformers (ViTs) have become ubiquitous in computer vision. Despite their success, ViTs lack inductive biases, which can make it difficult to train them with limited data. To address this challenge, pri

发现论文，激发创造

自我监督视觉Transformer训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督ViT训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021

用仅2040张图片训练视觉Transformer

本篇研究介绍如何以有限数据训练Vision Transformers，并探讨使用基于参数实例鉴别方法的理论分析。结果表明，该方法优于其他方法，可捕捉特征对齐和实例相似性，并在多个ViT基础下从头开始训练7个小数据集，取得了最新的测试结果。此外，该研究还探讨了小型数据集的迁移能力，并发现从小型数据集中学习的表示甚至可以改善大规模ImageNet的训练结果。

Jan, 2022

无需训练的自适应视觉Transformer

提出了一种名为As-ViT的自动缩放框架，用于设计和扩展Vision Transformers(ViT)，并在分类和检测任务上获得了强大的性能，其模型设计和缩放过程仅需12小时的训练。

Feb, 2022

自我监督的少样本变换器

本研究探讨了视觉变换器 (ViT) 在少样本学习中的能力，发现在相同的少样本学习框架下，用 ViT 模型替换常用的 CNN 特征提取器会严重削弱少样本分类性能；本研究提出了一种名为 Self-promoted sUpervisioN (SUN) 的简单而有效的ViT少样本训练框架，用于改善 token 依赖性问题，并通过实验证明了 SUN 优于其他同类技术，并超过了 CNN 的最新研究成果。

Mar, 2022

DeiT III：ViT 的复仇

本文改进了一种用于训练Vision Transformer(ViT)的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为ViT的自我监督方法提供了更好的基线。

Apr, 2022

CNN还是ViT？透过卷积再探视觉Transformer

本研究提出了一种新颖的高斯混合蒙版（GMM）方法，在没有预训练的情况下通过改进局部建模的方式来提升Vision Transformer（ViT）在小数据集上的性能，实验证明该方法对于提升ViT的效果显著，几乎不增加额外参数或计算成本。

Sep, 2023

图像掩蔽残差学习用于深度视觉Transformer的扩展

深度ViT在使用MIM进行预训练时暴露出深层退化问题，为了缓解深度ViT的训练困难，我们引入了一种自监督学习框架MIRL，该框架显著缓解了退化问题，使得ViT的深度扩展成为性能提升的有希望的方向。

Sep, 2023

I&S-ViT：推进Post-Training ViTs量化极限的包容稳定方法

提出了一种新颖的方法I&S-ViT，用于稳定地进行ViTs的PTQ，包括引入shift-uniform-log2量化器（SULQ）和三阶段平滑优化策略（SOS），并通过对多样的视觉任务进行全面评估，证明了其在低位场景下相对于现有的ViTs PTQ方法的优越性。

Nov, 2023

探索自我监督视觉变换器用于深伪检测：一种比较分析

本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络（ConvNets）在检测各种类型的深度伪造方面的有效性，重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调，在利用自监督学习和变换器进行深度伪造检测时，我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性，且同时需要较少的计算资源。

May, 2024

视觉变换器的自监督学习机制综述

本研究解决了深度学习模型对标注数据依赖过大的问题，探讨了自监督学习（SSL）在视觉任务中的应用与机制。文章提出了一种系统分类的SSL技术分类法，并对现有的预训练任务进行了回顾，指出了该领域的挑战和未来研究方向，强调SSL在无标注数据环境下的潜在影响。

Aug, 2024