DINOv2: 无监督学习强韧可靠的视觉特征

Apr, 2023

DINOv2: 无监督学习强韧可靠的视觉特征

DINOv2: Learning Robust Visual Features without Supervision

Maxime Oquab, Timothée Darcet, Théo Moutakanni, Huy Vo, Marc Szafraniec...

TL;DR本文提出了一种基于预训练和自监督方法的计算机视觉模型，该模型使用大量的数据自动构建一种多样的图像数据集，能够在各种任务和图像的情况下快速、高效地生成功能强大的视觉特征。

Abstract

The recent breakthroughs in natural language processing for model pretraining on large quantities of data have opened the way for similar foundation models in →

natural language processing computer vision pretraining self-supervised methods vit model

发现论文，激发创造

无监督预训练非策展数据图像特征

本研究提出了一种新的无监督学习方法，利用自监督和聚类从大规模数据中捕获互补统计信息，通过对 YFCC100M 中 9600 万张图片的验证，本方法已经成为标准基准测试中无监督方法中最先进的方法之一，也展示了使用本方法预训练的 VGG-16 在 ImageNet 验证集上可以获得 74.9 % 的分类精度，比同一网络从头开始训练提高了 0.8%。

May, 2019

在无监督未筛选图像上进行预训练使视觉模型更健壮和公正

通过自监督学习方法，针对各种来源、无需数据预处理的数十亿张随机图片进行训练，生成可以识别物体、风格、地理位置等信息的模型，并对其公平性、偏差等进行了多角度验证，证明其表现优异、不会对数据进行歧视和危害。

Feb, 2022

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

自监督视觉 Transformer 中的新兴特性

本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性，发现自监督 ViT 特征明确包含图像的语义分割信息，在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率，并将这些发现用于自监督方法 DINO 中，通过线性评估，使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。

Apr, 2021

启发式视觉预训练的自监督和有监督多任务学习

提出了一个结合自监督学习和监督学习的多任务预训练框架，用于识别多种视觉任务，结果表明该模型能够达到或超过多个视觉任务的最先进结果的能力。

Oct, 2023

视觉 Transformer 能否在没有自然图像的情况下进行学习？

本研究提出了一种无需自然图像和人工注释的 ViT 预训练框架，实验证明与 SimCLRv2 和 MoCov2 等复杂的自监督学习方法相比，在不使用任何自然图像的情况下部分优于自然图像预训练的 ViT，并可以大部分解释自然图像数据集，特别在 CIFAR-10 数据集上，表现出 97.6％的性能。

Mar, 2021

自监督视频预训练产生强大的图像表示

提出了一种名为 VITO 的简单范式，通过对动态视频帧的自我监督学习，有效地学习图像表示，该方法实现了视频预训练模型在语义分割和对象检测等任务上与 ImageNet 预训练模型性能相近甚至更好的表现，未来视频预训练有望成为学习图像表示的新默认方法。

Oct, 2022

对比检测的高效视觉预训练

引入对比检测算法的自监督目标，通过在图像增强中识别物体水平特征提取富有学习信息的信号，实现高效的自监督预训练，拥有多种下游任务的领先转移精度。在 ImageNet 预训练模型表现与大型自监督系统 SEER 相当的同时，需要少至 10 倍的预训练数据量，最终该目标还能轻松应对更复杂的图像。

Mar, 2021

利用深层 ViT 特征作为密集的视觉描述符

本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符，提出了基于无监督 DINO-ViT 模型提取特征的简单方法，可用于各种领域的相关应用，包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果，并且较之前的无监督方法有了很大的提高。

Dec, 2021

无监督的视觉与语言预训练：无需平行图像和文本

通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Oct, 2020