MaskMatch:基于 Mask 自编码特征学习的半监督学习增强
通过将 Masked Auto-Encoder(MAE)作为一个统一的、与模态无关的自监督学习框架,通过元学习对其进行解读,并从统一提高其在不同模态下的自监督学习的动机出发,我们提出了 MetaMAE。我们的关键思想是将 MAE 的掩码重构视为元学习任务,并通过未掩码标记的变换器元学习的涉及来预测掩码令牌。基于这个新颖的解读,我们提出了集成两种先进的元学习技术的方法。首先,我们使用基于梯度的元学习来适应变换器编码器的平均潜在因素以增强重构。然后,我们通过任务对比学习来最大化平均化和适应化潜在因素之间的对齐,从而指导变换器编码器更好地编码任务特定的知识。我们的实验证明了 MetaMAE 在与模态无关的自监督学习基准(称为 DABS)中的优越性,明显优于之前的基线。
Oct, 2023
本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述,着重于介绍其在视觉模式识别领域中的应用,包括历史发展、最新进展以及对各种应用的影响。
Jul, 2022
本文提出了一种基于掩蔽自监督学习框架 GraphMAE2,利用多视角随机重新覆盖解码策略和潜在表示预测策略,并通过广泛的实验表明其在各种公共数据集上始终产生顶级结果。
Apr, 2023
SCE-MAE 是一个高度有效且稳健的框架,在标记数据不可用的情况下,通过使用 MAE 方法、基于特征图进行操作以及使用密度峰聚类算法和局部受限排斥损失来直接提取部分局部对应关系,大幅超越了现有 SOTA 方法约 20%-44% 的地标匹配和约 9%-15% 的地标检测任务。
May, 2024
该论文提出了一种基于标签自动编码器的像素级别完整方法,通过融合策略实现图片修补,并且采用了图像补丁补充算法,取得了较好的语义分割结果。
Nov, 2022
本文提出了一种新的基于联邦学习的框架 FedMAE,使用联邦半监督 / 自监督学习的方法通过本地客户端的未标记的大规模图像进行预训练,并在服务器端级联多个预训练的一块 MAE 构建一个多块 ViT 来解决如何利用未标记的大规模图片进行联邦学习的问题。实验结果表明,与最先进的 FSSL 方法相比,FedMAE 取得了卓越的性能。
Mar, 2023
本文提出一种自适应阈值调整方法 FreeMatch,以更好地利用未标记数据,另外还引入了自适应类公平性正则化惩罚来促进模型多样性预测。实验证明 FreeMatch 相对于最新的 FlexMatch 方法在 CIFAR-10、STL-10 和 ImageNet 上均表现更加优越,可提高不平衡 SSL 的性能。
May, 2022
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题,并通过适当的视频屏蔽达到了良好的表现,进而证明数据质量对 SSVP 更加重要。
Mar, 2022