视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习
本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型,且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。
Jun, 2022
本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN,通过嵌入语言监督来生成语义信息丰富的图像特征,通过实验证明,该方法在多项计算机视觉任务中优于现有方法。
Aug, 2022
本文提出了一种基于 Adversarial Positional Embedding (AdPE) 方法的无监督学习方式,旨在完善预测任务以避免学习仅适用于下游任务的低级特征,实验结果表明,该方法准确性能优于传统无监督学习以及不使用额外模型,数据集的视觉变换和不同网络架构等条件。
Mar, 2023
本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练,在多种机器人任务和实体上表现出了较高效果,并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练,展示了对于机器人学习的视觉预培训的规模化提升的好处。
Oct, 2022
本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络,该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息,以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈,提出了一种构建良好视图以产生潜在表示的方法,并使用多重蒙版策略来提供平衡信息的多个蒙版视图,以增强性能。
Jul, 2022
本文提出了 MST 方法,它可以显式捕捉图像的局部上下文并保留全局语义信息,在密集预测任务上有更好的性能,在多个数据集上得到验证,并优于同等时期的监督方法和其可比的变体 DINO。
Jun, 2021
本文主要通过使用基于掩码图像建模的 MAE pre-training 方法,即 MAE-lite,来为轻量级 ViTs 的 pre-training 提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种 pre-training 的影响,揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个 distillation 策略来提高 pre-trained representations,从而实现更好的性能。
May, 2022
本文提出了统一遮蔽(Uniform Masking,UM)技术,将其成功应用于金字塔式视觉变换器(Pyramid-based ViTs)的 MAE 预训练中,命名为 UM-MAE。UM 技术包括均匀抽样(Uniform Sampling,US)和辅助遮蔽(Secondary Masking,SM),大大提高了金字塔式 ViTs 的预训练效率和下游任务的微调性能。
May, 2022