探究口罩重建预训练为何对下游任务有所帮助
本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN,通过嵌入语言监督来生成语义信息丰富的图像特征,通过实验证明,该方法在多项计算机视觉任务中优于现有方法。
Aug, 2022
Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.
Feb, 2024
本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练,在多种机器人任务和实体上表现出了较高效果,并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练,展示了对于机器人学习的视觉预培训的规模化提升的好处。
Oct, 2022
本文提出了 MST 方法,它可以显式捕捉图像的局部上下文并保留全局语义信息,在密集预测任务上有更好的性能,在多个数据集上得到验证,并优于同等时期的监督方法和其可比的变体 DINO。
Jun, 2021
本研究提出一种名为 LoMaR 的局部掩码重建的学习机制,该方法与生成式自监督视觉学习方法(如 MAE 和 BEiT)相比,可以更加高效地在简单的转换器编码器上进行掩码重建,同时也更具准确性,可轻松集成到其他生成式自监督学习方法中。
Jun, 2022
提出了一种使用掩蔽重构损失进行预训练语音表示的方法,实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明,预训练、掩蔽段、领域适应都能提高语音识别性能。
Jan, 2020
我们提出了一个简洁而有效的预训练框架,名为 PersonMAE,通过引入两个核心设计到遮挡自编码器中,以更好地为 Person Re-ID 任务提供服务,并在四个下游任务中实现了最先进的性能。
Nov, 2023
本文提出一种新颖的掩码自编码点云自监督学习方案,通过划分输入点云为不规则点区块和高比例随机掩码,设计了一种基于 Transformer 的自编码器,该方案在预训练过程中高效并且在各种下游任务中具有很好的泛化能力,包括在少样本物体分类方面表现出色。
Mar, 2022
本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE,通过三个关键设计,包括污染输入、不对称模型结构和不对称的遮盖比率,取得了令人满意的实验结果,大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。
May, 2022
通过自编码器预训练并采用使用基于注意力机制的解码器,本文在点云分析任务中表现优异,提高了点位置重建的不必要性,并还原了遮挡点的基础功能特征,包括表面法线和表面变化。
Apr, 2023