DINO 作为 von Mises-Fisher 混合模型

ICLRMay, 2024

DINO as a von Mises-Fisher mixture model

Hariprasath Govindarajan, Per Sidén, Jacob Roll, Fredrik Lindsten

TL;DRDINO-vMF 使用混合模型的方法改进了 DINO 的集群分配概率计算，对于较大的 ViT-Base 模型也更加稳定且在各种下游任务中表现更好，提供了更好的图像表示。

Abstract

self-distillation methods using siamese networks are popular for self-supervised pre-training. DINO is one such method based on a cross-entropy loss between $K$-dimensional probability vectors, obtained by applyi

self-distillation methods siamese networks dino-vmf mixture model image representations

发现论文，激发创造

基于 von Mises-Fisher 混合模型的深度学习：应用于人脸验证

本文提出了基于 von Mises-Fisher 混合模型的深度学习方法，能有效地深度学习方向特征，实现了紧凑学习同一类别的实例，同时增加不同类别的实例之间的距离，融合了多种流行的 loss 函数，并在人脸验证任务中获得了当前最优结果。

Jun, 2017

分析自监督视觉变压器的局部表征

自本文中，我们对各种自监督视觉变换器（ViTs）进行了比较分析，重点研究了它们的局部代表能力。我们设计了一个评估框架，分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现，基于对比学习的方法如 DINO 产生了更通用的局部表示，可以立即应用于无参数调整的下游任务，而掩蔽图像建模的方法中学习的嵌入具有高方差特征，对于大多数下游任务没有有用信息。此外，通过对本工作的基准和 Scale-MAE 的分析，我们证明了移除这些高方差特征对 k-NN 算法的改进。最后，我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。

Dec, 2023

LowDINO -- 一个低参数的自监督学习模型

本研究旨在探索设计一种神经网络架构，使小型网络能够采用自监督学习中已显示出成功的大型网络的属性，用于图像分类、分割等所有下游任务。

May, 2023

DenseDINO: 通过基于 Token 的点级一致性提高密集型自监督学习

本文提出了一种名为 DenseDINO 的简单且高效的自监督学习的 transformer 框架，用于学习密集视觉表示。通过跨视图引入基于 token 的点级监督来利用密集预测任务需要但被现有自监督 transformer 所忽略的空间信息。与 vanilla DINO 相比，在 ImageNet 的分类评估中获得了有竞争力的表现，并在 PascalVOC 上的语义分割中在线性探测协议下实现了大幅度的提升 (+7.2％mIoU)。

Jun, 2023

DinoSR：基于自蒸馏和在线聚类的自监督语音表示学习

本研究介绍 DinoSR，一种使用自我蒸馏和在线聚类的自监督语音表示学习方法，其中结合了掩码语言建模，自我蒸馏和在线聚类，实验表明这些概念互补，并形成了语音强表示学习模型。

May, 2023

高效低计算自监督视觉模型的简单配方

本文介绍了一种简单的自监督蒸馏技术，可以培训高性能低计算的神经网络，RoB 通过从大型自监督教师模型到小型学生模型的知识蒸馏来实现，适用于许多架构。实验结果表明 RoB 在 ImageNet 数据集上表现良好，且在五个下游转移任务上的表现与监督蒸馏的结果相当或更好。

Jan, 2023

利用深层 ViT 特征作为密集的视觉描述符

本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符，提出了基于无监督 DINO-ViT 模型提取特征的简单方法，可用于各种领域的相关应用，包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果，并且较之前的无监督方法有了很大的提高。

Dec, 2021

通过 DINO 语义引导的可变形一次性人脸风格化

该论文探讨了一次性人脸风格化的复杂问题，通过利用自监督视觉转换器和适应 StyleGAN 生成器进行精细调整，实现了在结构上具有鲁棒性和一致性的面部风格化，达到了显著的效率优势。

Mar, 2024

自监督视觉 Transformer 中的新兴特性

本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性，发现自监督 ViT 特征明确包含图像的语义分割信息，在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率，并将这些发现用于自监督方法 DINO 中，通过线性评估，使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。

Apr, 2021

多视角自监督学习中的熵和重构的作用

多视角自监督学习的成功机制尚未完全了解，本文通过熵和重构项 (ER) 的下界进行分析，发现基于聚类的方法最大化了互信息 (MI)，而基于蒸馏的方法则显式地最大化了重构项并隐式地鼓励稳定熵，通过用 ER 下界替换常见 MVSSL 方法的目标，实现了竞争性的性能，并在小批量大小或小指数移动平均 (EMA) 系数下保持稳定。

Jul, 2023