视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

Jun, 2023

视觉 Transformer 预训练中遮蔽和置换视觉令牌的学习

Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training

Lorenzo Baraldi, Roberto Amoroso, Marcella Cornia, Lorenzo Baraldi, Andrea Pilzer...

TL;DR本研究提出了一种名为 MaPeT 的新型自监督预训练方法，旨在提高基于视觉任务的性能并解决输入噪声和不一致性问题，实验结果表明其在 ImageNet 数据集上具有与竞争对手相媲美的性能。

Abstract

The use of self-supervised pre-training has emerged as a promising approach to enhance the performance of visual tasks such as image classification. In this context, recent approaches have employed the

self-supervised pre-training masked image modeling mapet visual tasks imagenet

发现论文，激发创造

通过掩码微调来弥合标记剪枝和完全预训练之间的差距

采用蒙版微调为动态视觉转换器的静态预训练基础模型提供更好的初始化，以提高准确性并增强其对遮挡的鲁棒性和对信息丢失的抵抗能力。

Oct, 2023

MaskViT: 视频预测的掩蔽视觉预训练

本研究展示通过基于遮蔽视觉建模的 Transformer 预训练可以创建良好的视频预测模型，且仅需最少领域知识即可赋予具有强大预测模型的实体智能体。

Jun, 2022

MILAN: 基于语言辅助表征的掩蔽图像预训练

本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN，通过嵌入语言监督来生成语义信息丰富的图像特征，通过实验证明，该方法在多项计算机视觉任务中优于现有方法。

Aug, 2022

通过 MAE + 对视觉变换器进行预训练的对抗位置嵌入

本文提出了一种基于 Adversarial Positional Embedding (AdPE) 方法的无监督学习方式，旨在完善预测任务以避免学习仅适用于下游任务的低级特征，实验结果表明，该方法准确性能优于传统无监督学习以及不使用额外模型，数据集的视觉变换和不同网络架构等条件。

Mar, 2023

使用遮蔽视觉预训练的真实世界机器人学习

本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练，在多种机器人任务和实体上表现出了较高效果，并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练，展示了对于机器人学习的视觉预培训的规模化提升的好处。

Oct, 2022

SdAE: 自我蒸馏的遮蔽式自编码器

本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络，该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息，以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈，提出了一种构建良好视图以产生潜在表示的方法，并使用多重蒙版策略来提供平衡信息的多个蒙版视图，以增强性能。

Jul, 2022

MST：遮蔽式自监督变压器用于视觉表示

本文提出了 MST 方法，它可以显式捕捉图像的局部上下文并保留全局语义信息，在密集预测任务上有更好的性能，在多个数据集上得到验证，并优于同等时期的监督方法和其可比的变体 DINO。

Jun, 2021

自我监督轻量级视觉 Transformer 的深入探讨

本文主要通过使用基于掩码图像建模的 MAE pre-training 方法，即 MAE-lite，来为轻量级 ViTs 的 pre-training 提供配方，并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比，分析和表明了这种 pre-training 的影响，揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用，并开发了一个 distillation 策略来提高 pre-trained representations，从而实现更好的性能。

May, 2022

统一蒙版：使用局部信息实现金字塔视觉 Transformer 的 MAE 预训练

本文提出了统一遮蔽（Uniform Masking，UM）技术，将其成功应用于金字塔式视觉变换器（Pyramid-based ViTs）的 MAE 预训练中，命名为 UM-MAE。UM 技术包括均匀抽样（Uniform Sampling，US）和辅助遮蔽（Secondary Masking，SM），大大提高了金字塔式 ViTs 的预训练效率和下游任务的微调性能。

May, 2022

有效预训练的蒙版标记的新特性

通过优化蒙面标记以解决自我监督学习中的效率问题，该方法称为蒙面标记优化（MTO），可实现与最新方法相当的预训练性能，减少近 50% 的预训练时期。

Apr, 2024