DINOv2: 无监督学习强韧可靠的视觉特征
本研究提出了一种新的无监督学习方法,利用自监督和聚类从大规模数据中捕获互补统计信息,通过对 YFCC100M 中 9600 万张图片的验证,本方法已经成为标准基准测试中无监督方法中最先进的方法之一,也展示了使用本方法预训练的 VGG-16 在 ImageNet 验证集上可以获得 74.9 % 的分类精度,比同一网络从头开始训练提高了 0.8%。
May, 2019
通过自监督学习方法,针对各种来源、无需数据预处理的数十亿张随机图片进行训练,生成可以识别物体、风格、地理位置等信息的模型,并对其公平性、偏差等进行了多角度验证,证明其表现优异、不会对数据进行歧视和危害。
Feb, 2022
本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法,通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模,训练卷积神经网络来预测图像最可能出现为插图的语义上下文,有效地学习了区分性视觉特征,其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。
May, 2017
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
本研究提出了一种无需自然图像和人工注释的 ViT 预训练框架,实验证明与 SimCLRv2 和 MoCov2 等复杂的自监督学习方法相比,在不使用任何自然图像的情况下部分优于自然图像预训练的 ViT,并可以大部分解释自然图像数据集,特别在 CIFAR-10 数据集上,表现出 97.6%的性能。
Mar, 2021
提出了一种名为 VITO 的简单范式,通过对动态视频帧的自我监督学习,有效地学习图像表示,该方法实现了视频预训练模型在语义分割和对象检测等任务上与 ImageNet 预训练模型性能相近甚至更好的表现,未来视频预训练有望成为学习图像表示的新默认方法。
Oct, 2022
引入对比检测算法的自监督目标,通过在图像增强中识别物体水平特征提取富有学习信息的信号,实现高效的自监督预训练,拥有多种下游任务的领先转移精度。在 ImageNet 预训练模型表现与大型自监督系统 SEER 相当的同时,需要少至 10 倍的预训练数据量,最终该目标还能轻松应对更复杂的图像。
Mar, 2021
本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符,提出了基于无监督 DINO-ViT 模型提取特征的简单方法,可用于各种领域的相关应用,包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果,并且较之前的无监督方法有了很大的提高。
Dec, 2021
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于 V&L 预训练来说,对齐数据是必要的广泛看法,并显著减少了 V&L 模型的监督所需量。
Oct, 2020