掩盖式自编码器是高效的类增量学习器
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
我们提出了一种基于课程学习的掩模自编码器(CL-MAE),通过不断增加自监督重建任务的复杂性,逐渐提高模型学习更复杂和可转移的表示能力,并使用 Curriculum-Learned Masked Autoencoder (CL-MAE) 在 ImageNet 数据集上进行训练,通过在五个下游任务上的实证结果验证了我们的猜想,展示了课程学习在自监督掩模自编码器中的成功应用。
Aug, 2023
Contrastive Masked Autoencoders (CMAE) is a new self-supervised pre-training method that unifies contrastive learning (CL) and masked image model (MIM) for learning more powerful visual representation, achieving state-of-the-art results on image classification, semantic segmentation, and object detection tasks.
Jul, 2022
提出了一种基于遮蔽自编码器的新型神经架构搜索(NAS)框架,该框架在搜索过程中不需要标记数据。通过用图像重构任务替代监督学习目标,我们的方法能够在不损害性能和泛化能力的情况下,有效地发现网络架构。此外,我们通过引入多尺度解码器来解决在无监督范式中广泛使用的 Differentiable Architecture Search(DARTS)方法遇到的性能崩溃问题。通过在不同的搜索空间和数据集上进行大量实验证明了所提方法的有效性和鲁棒性,并提供了其优于基线方法的经验证据。
Nov, 2023
本研究提出了一种名为 MAE-CT 的序列方法,旨在将最近邻对比学习应用于经过预训练的 MAE 中,以将丰富的特征组成对象语义簇,而无需使用任何标签,并应用于使用大型 Vision Transformer 模型。MAE-CT 在线性探测、k-NN 和少样本分类准确度以及无监督聚类准确度方面与以往的自监督方法相匹配或胜过了以 ImageNet 为训练数据的深度学习方法。
Apr, 2023
在生物研究中,将显微镜图像分析成特征仍然是一个重大挑战。本研究探讨了弱监督分类器和自监督掩码自编码器(MAEs)在使用越来越大的模型和显微镜数据集进行训练时的伸缩性能。我们的研究结果表明,基于 ViT 的 MAEs 在多项任务上优于弱监督分类器,在从公共数据库中获取的已知生物关系的召回中相对改进了 11.5%。此外,我们还开发了一种新的通道无关的 MAE 架构(CA-MAE),可以在推理时输入具有不同通道数和顺序的图像。我们证明了 CA-MAEs 通过在具有不同实验条件和通道结构的显微镜图像数据集(JUMP-CP)上进行推断和评估的方法有效地泛化。我们的发现促使继续在显微镜数据上进行自监督学习的规模扩展研究,以创建能够催化药物发现等领域进展的细胞生物学强大基础模型。
Apr, 2024
本文提出了一种 Medical Supervised Masked Autoencoder (MSMAE) 模型来解决传统 Masked Autoencoder (MAE) 模型在医学图像分类和分割中存在的问题,通过监督训练精确地遮蔽医学图像以及在微调阶段通过注意力机制指导遮蔽医学图像,显著提高了 MSMAE 模型的计算效率和医学诊断质量。
May, 2023
本研究通过理论模型的建立及实验验证,提供了在 Masked autoencoder 框架下自监督学习的一些理论解释,并说明了其潜在局限性与未来改进方向。
Jun, 2023