探究口罩重建预训练为何对下游任务有所帮助

Jun, 2022

探究口罩重建预训练为何对下游任务有所帮助

Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks

Jiachun Pan, Pan Zhou, Shuicheng Yan

TL;DR该论文研究了在无监督预训练中，通过使用自编码器结合随机遮盖的方法，可以更好地提取语义特征，从而应用于监督微调，实现更好的性能表现。

Abstract

For unsupervised pretraining, mask-reconstruction pretraining (mrp) approaches, e.g. MAE and data2vec, randomly mask input patches and then reconstruct the pixels or semantic features of these masked patches via

unsupervised pretraining mrp auto-encoder semantic feature learning supervised fine-tuning

发现论文，激发创造

MILAN: 基于语言辅助表征的掩蔽图像预训练

本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN，通过嵌入语言监督来生成语义信息丰富的图像特征，通过实验证明，该方法在多项计算机视觉任务中优于现有方法。

Aug, 2022

使用多级优化的掩码自编码器中的下游任务引导掩码学习

Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.

Feb, 2024

使用遮蔽视觉预训练的真实世界机器人学习

本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练，在多种机器人任务和实体上表现出了较高效果，并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练，展示了对于机器人学习的视觉预培训的规模化提升的好处。

Oct, 2022

MST：遮蔽式自监督变压器用于视觉表示

本文提出了 MST 方法，它可以显式捕捉图像的局部上下文并保留全局语义信息，在密集预测任务上有更好的性能，在多个数据集上得到验证，并优于同等时期的监督方法和其可比的变体 DINO。

Jun, 2021

具有局部掩码重建的高效自监督视觉预训练

本研究提出一种名为 LoMaR 的局部掩码重建的学习机制，该方法与生成式自监督视觉学习方法（如 MAE 和 BEiT）相比，可以更加高效地在简单的转换器编码器上进行掩码重建，同时也更具准确性，可轻松集成到其他生成式自监督学习方法中。

Jun, 2022

通过掩码重构无监督预训练双向语音编码器

提出了一种使用掩蔽重构损失进行预训练语音表示的方法，实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明，预训练、掩蔽段、领域适应都能提高语音识别性能。

Jan, 2020

PersonMAE: 使用遮罩自编码器进行人物再识别预训练

我们提出了一个简洁而有效的预训练框架，名为 PersonMAE，通过引入两个核心设计到遮挡自编码器中，以更好地为 Person Re-ID 任务提供服务，并在四个下游任务中实现了最先进的性能。

Nov, 2023

点云自监督学习的掩蔽自编码器

本文提出一种新颖的掩码自编码点云自监督学习方案，通过划分输入点云为不规则点区块和高比例随机掩码，设计了一种基于 Transformer 的自编码器，该方案在预训练过程中高效并且在各种下游任务中具有很好的泛化能力，包括在少样本物体分类方面表现出色。

Mar, 2022

通过遮蔽自编码器预训练针对检索的语言模型 RetroMAE

本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE，通过三个关键设计，包括污染输入、不对称模型结构和不对称的遮盖比率，取得了令人满意的实验结果，大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。

May, 2022

基于 Masked-AutoEncoder 的点云预训练中的 3D 特征预测

通过自编码器预训练并采用使用基于注意力机制的解码器，本文在点云分析任务中表现优异，提高了点位置重建的不必要性，并还原了遮挡点的基础功能特征，包括表面法线和表面变化。

Apr, 2023