MOCA:通过预测掩码在线码书分配进行自监督表示学习
近年来,自监督学习因其出色的表示学习能力和对标注数据低依赖性而备受关注。文中综合评述了遮蔽建模框架及其方法学,并详细介绍了遮蔽建模中的技术细节,包括各种遮蔽策略、恢复目标、网络架构等。该框架在计算机视觉、自然语言处理和其他领域表现出了出色的性能,并探讨了不同领域中遮蔽建模方法的共性和差异。最后,讨论了当前技术的局限性并指出了几个可能的研究方向。
Dec, 2023
通过量化实验,我们发现了自监督学习方法的增益来源及其局限性,并且提出了一种利用非结构化视频学习表示以实现更高视点不变性的方法。
Jul, 2020
提出一种名为 MOMA 的框架,通过三种不同的知识转移机制在自我监督的方式下,将来自 MoCo 和 MAE 的知识合作起来,从而产生紧凑的学生模型,在计算效率方面具有极高的蒙面率和显著降低的训练代数,实验证明 MOMA 在计算机视觉方面的不同基准测试中都具有竞争力。
Feb, 2023
本文提出了一种基于掩模对比学习(CMP)的自监督视觉表示法,利用区域级特征对比而不是视角层级特征对比,以消除隐式的语义一致性假设并实现正样本的无假设定位。使用专门的掩模预测头解决了掩模和非掩模特征之间的域差异,实验结果表明该方法在自然数据集上获得了可比较的性能,并且在大量下游任务上比 MoCo V2 表现更强。
Aug, 2021
视觉变换器结合自监督学习,在分类、分割和检测等多个下游任务上能够扩展到大规模数据集。我们通过比较预训练模型,在不同自监督预训练任务(对比学习、聚类和掩模图片建模)的低样本学习能力以及应对崩溃的方法(居中、ME-MAX 和 Sinkhorn)对这些下游任务的影响进行系统级研究。基于我们的详细分析,我们提出了一个框架,将掩模图片建模和聚类作为预训练任务,这个框架在包括多类分类、多标签分类和语义分割在内的所有低样本下游任务中表现更好。此外,当在完整规模的数据集上测试模型时,我们在多类分类、多标签分类和语义分割中展示了性能提升。
Jun, 2024
这篇论文提出了一种基于自监督学习的特征学习方法,通过预测无标签数据的辅助任务来学习有用的语义表示,并使用线性层来对学习的表示进行下游任务预测,从而显著降低了样本复杂度。
Aug, 2020
本研究提出一种名为 LoMaR 的局部掩码重建的学习机制,该方法与生成式自监督视觉学习方法(如 MAE 和 BEiT)相比,可以更加高效地在简单的转换器编码器上进行掩码重建,同时也更具准确性,可轻松集成到其他生成式自监督学习方法中。
Jun, 2022
本文研究掩蔽 Siamese 网络在卷积神经网络下的问题,并提出多个经验设计来逐渐解决这些问题。该方法在低样本图像分类上表现有竞争力,并在目标检测基准测试中优于以前的方法。
Jun, 2022
本研究提出一种基于模型对模糊图像的建模方法,即上下文自编码器(CAE),用于自我监督的表示预训练,其中引入了一种对齐约束,以使从可见补丁中预测的表示在编码表示空间中进行排列。相比之前的 MIM 方法,我们的方法利于表示学习和下游任务的进行。通过在语义分割和物体检测和实例分割等下游任务中表现,我们证明了我们的 CAE 的有效性。
Feb, 2022
本文提出一种新颖的掩码自编码点云自监督学习方案,通过划分输入点云为不规则点区块和高比例随机掩码,设计了一种基于 Transformer 的自编码器,该方案在预训练过程中高效并且在各种下游任务中具有很好的泛化能力,包括在少样本物体分类方面表现出色。
Mar, 2022