Jun, 2023

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

TL;DR本研究提出了一种名为 MaPeT 的新型自监督预训练方法,旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题,实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。