DINO 作为 von Mises-Fisher 混合模型
本文提出了基于 von Mises-Fisher 混合模型的深度学习方法,能有效地深度学习方向特征,实现了紧凑学习同一类别的实例,同时增加不同类别的实例之间的距离,融合了多种流行的 loss 函数,并在人脸验证任务中获得了当前最优结果。
Jun, 2017
自本文中,我们对各种自监督视觉变换器(ViTs)进行了比较分析,重点研究了它们的局部代表能力。我们设计了一个评估框架,分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现,基于对比学习的方法如 DINO 产生了更通用的局部表示,可以立即应用于无参数调整的下游任务,而掩蔽图像建模的方法中学习的嵌入具有高方差特征,对于大多数下游任务没有有用信息。此外,通过对本工作的基准和 Scale-MAE 的分析,我们证明了移除这些高方差特征对 k-NN 算法的改进。最后,我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。
Dec, 2023
本文提出了一种名为 DenseDINO 的简单且高效的自监督学习的 transformer 框架,用于学习密集视觉表示。通过跨视图引入基于 token 的点级监督来利用密集预测任务需要但被现有自监督 transformer 所忽略的空间信息。与 vanilla DINO 相比,在 ImageNet 的分类评估中获得了有竞争力的表现,并在 PascalVOC 上的语义分割中在线性探测协议下实现了大幅度的提升 (+7.2%mIoU)。
Jun, 2023
本研究介绍 DinoSR,一种使用自我蒸馏和在线聚类的自监督语音表示学习方法,其中结合了掩码语言建模,自我蒸馏和在线聚类,实验表明这些概念互补,并形成了语音强表示学习模型。
May, 2023
本文介绍了一种简单的自监督蒸馏技术,可以培训高性能低计算的神经网络,RoB 通过从大型自监督教师模型到小型学生模型的知识蒸馏来实现,适用于许多架构。实验结果表明 RoB 在 ImageNet 数据集上表现良好,且在五个下游转移任务上的表现与监督蒸馏的结果相当或更好。
Jan, 2023
本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符,提出了基于无监督 DINO-ViT 模型提取特征的简单方法,可用于各种领域的相关应用,包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果,并且较之前的无监督方法有了很大的提高。
Dec, 2021
该论文探讨了一次性人脸风格化的复杂问题,通过利用自监督视觉转换器和适应 StyleGAN 生成器进行精细调整,实现了在结构上具有鲁棒性和一致性的面部风格化,达到了显著的效率优势。
Mar, 2024
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
多视角自监督学习的成功机制尚未完全了解,本文通过熵和重构项 (ER) 的下界进行分析,发现基于聚类的方法最大化了互信息 (MI),而基于蒸馏的方法则显式地最大化了重构项并隐式地鼓励稳定熵,通过用 ER 下界替换常见 MVSSL 方法的目标,实现了竞争性的性能,并在小批量大小或小指数移动平均 (EMA) 系数下保持稳定。
Jul, 2023