走向高质量的人脸表征学习
本研究提出了一种通用的人脸表示学习框架(FaRL),其使用对比损失和掩蔽图像建模来同时掌握高层语义和低层信息。在大量的图像和文本对上进行预训练并在多个下游任务中验证其性能,在人脸解析和人脸对齐等人脸分析任务中展现了比以往预训练模型更好的迁移表现。
Dec, 2021
本文介绍了一种名为 Multi-Level Contrastive Learning for Dense Prediction Task (MCL) 的自监督学习方法,该方法通过实现一种装配多尺度图像的贡献任务,显式地编码绝对位置和比例信息,从而使神经网络能够学习区域语义表示。实验表明,MCL 在各种数据集上始终优于最新的现有方法。
Apr, 2023
本文提出了一种基于自注意力和掩码自编码器的图像预训练方法 MILAN,通过嵌入语言监督来生成语义信息丰富的图像特征,通过实验证明,该方法在多项计算机视觉任务中优于现有方法。
Aug, 2022
本文讨论了学习通用人脸表征的最佳方法,介绍了用于面部表征学习的综合评估基准,研究了人脸表示学习的两种方法(监督和非监督预训练),并调查了训练数据集的重要特征,通过大量实验,发现无监督的预训练方法在各种人脸任务中表现出一致性和显著的准确性提高,同时也发现现有的一些人脸视频数据集存在大量的冗余。
Mar, 2021
本研究提出了一种新型的自监督人脸表征学习框架 (Facial Region Awareness, FRA),目标是通过匹配面部局部表征来学习一致的全局和局部面部表征,并通过在特征图上计算面部蒙版嵌入的余弦相似度来获取热图,进而证明在面部分类和回归任务中,FRA 模型优于之前的预训练模型和现有方法。
Mar, 2024
本文提出了一种基于掩模对比学习(CMP)的自监督视觉表示法,利用区域级特征对比而不是视角层级特征对比,以消除隐式的语义一致性假设并实现正样本的无假设定位。使用专门的掩模预测头解决了掩模和非掩模特征之间的域差异,实验结果表明该方法在自然数据集上获得了可比较的性能,并且在大量下游任务上比 MoCo V2 表现更强。
Aug, 2021
利用自监督学习方法在中等规模的图像数据集上,对视觉 Transformer 进行预训练,并通过对比微调的方式有效减少面部数据集和面部表情识别数据集之间的领域差异,实现更好的表征学习。
Jan, 2024
我们提出了一种自我监督学习框架,称为 “长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE 能够学习到更具有区分性的表示,从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率,比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023
本文提出了一种名为 MimCo 的新型、灵活的预训练框架,通过两阶段的预训练,将 MIM 和对比学习相结合,提高了 MIM 预训练表示的线性可分性,取得了优越的性能。
Sep, 2022
该研究提出了一种自我监督的方法,从大量可获得的非标注网页爬取的面部视频中学习高度鲁棒和通用的面部嵌入,提取可转移特征,称之为 MARLIN,有效,一致地执行多种人脸分析任务,包括 FAR,FER,DFD 和 LS,甚至在低数据范围内表现良好。
Nov, 2022