ConvNeXt V2: 使用遮蔽式自编码器共同设计和扩展 ConvNets

Jan, 2023

ConvNeXt V2: 使用遮蔽式自编码器共同设计和扩展 ConvNets

ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu...

TL;DR本文提出了 ConvNeXt V2 模型，融合了无监督学习技术和架构优化，采用全卷积掩码自编码器框架和新的全局响应归一化层，显著提高了各种识别基准的性能，并提供各种尺寸的预训练模型。

Abstract

Driven by improved architectures and better representation learning frameworks, the field of visual recognition has enjoyed rapid modernization and performance boost in the early 2020s. For example, modern ConvNets, represented by →

visual recognition convnext self-supervised learning grn layer convnext v2

发现论文，激发创造

ConvMAE：掩码卷积与掩码自编码器相遇

本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入，提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法，可以在保证计算效率的同时提高了分类和检测的准确率。

May, 2022

VideoMAC: 视频蒙版自动编码器与卷积神经网络相遇

这篇论文介绍了一种名为 VideoMAC 的新方法，结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets，以及一种称为 MVM 的简单而有效的遮罩视频建模方法，通过在下游任务中的表现超过了基于 ViT 的方法。

Feb, 2024

对比遮蔽自编码器是更强的视觉学习者

Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.

Jul, 2022

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

掩蔽自编码器是可扩展的细胞形态学学习器

通过高内容显微镜筛选从细胞表型中推断生物关系在生物研究中提供了重要的机遇和挑战。该研究探讨了在更大数据集上训练更大模型时，弱监督和自监督深度学习方法的可扩展性。结果显示，基于 CNN 和 ViT 的掩蔽自编码器在表型推断方面明显优于弱监督模型。在我们的尺度上限，通过来自 9500 万显微镜图像的 35 亿个独特裁剪样本训练的 ViT-L/8 相对于从公共数据库中整理的已知生物关系的最佳弱监督模型的相对改善率达到了 28%。

Sep, 2023

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

掩码自编码器是强大的神经架构搜索学习者

提出了一种基于遮蔽自编码器的新型神经架构搜索（NAS）框架，该框架在搜索过程中不需要标记数据。通过用图像重构任务替代监督学习目标，我们的方法能够在不损害性能和泛化能力的情况下，有效地发现网络架构。此外，我们通过引入多尺度解码器来解决在无监督范式中广泛使用的 Differentiable Architecture Search（DARTS）方法遇到的性能崩溃问题。通过在不同的搜索空间和数据集上进行大量实验证明了所提方法的有效性和鲁棒性，并提供了其优于基线方法的经验证据。

Nov, 2023

掩码自编码器在视觉和其他领域的自监督学习中的调查

本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述，着重于介绍其在视觉模式识别领域中的应用，包括历史发展、最新进展以及对各种应用的影响。

Jul, 2022

CL-MAE：课程学习掩码自编码器

我们提出了一种基于课程学习的掩模自编码器（CL-MAE），通过不断增加自监督重建任务的复杂性，逐渐提高模型学习更复杂和可转移的表示能力，并使用 Curriculum-Learned Masked Autoencoder (CL-MAE) 在 ImageNet 数据集上进行训练，通过在五个下游任务上的实证结果验证了我们的猜想，展示了课程学习在自监督掩模自编码器中的成功应用。

Aug, 2023

对比调节：帮助遗忘掩码自编码器

本研究提出了一种名为 MAE-CT 的序列方法，旨在将最近邻对比学习应用于经过预训练的 MAE 中，以将丰富的特征组成对象语义簇，而无需使用任何标签，并应用于使用大型 Vision Transformer 模型。MAE-CT 在线性探测、k-NN 和少样本分类准确度以及无监督聚类准确度方面与以往的自监督方法相匹配或胜过了以 ImageNet 为训练数据的深度学习方法。

Apr, 2023