基于预训练表示的可推广模仿学习
自本文中,我们对各种自监督视觉变换器(ViTs)进行了比较分析,重点研究了它们的局部代表能力。我们设计了一个评估框架,分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现,基于对比学习的方法如 DINO 产生了更通用的局部表示,可以立即应用于无参数调整的下游任务,而掩蔽图像建模的方法中学习的嵌入具有高方差特征,对于大多数下游任务没有有用信息。此外,通过对本工作的基准和 Scale-MAE 的分析,我们证明了移除这些高方差特征对 k-NN 算法的改进。最后,我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。
Dec, 2023
通过对 15 个预训练视觉模型的性能比较,发现视觉出现分割能力是 ViT 模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后,分割分数在离线训练和 50 次演示后预测了真实世界的性能。
Nov, 2023
本文设计了一种称为 SelfPatch 的简单而有效的视觉预训练任务,利用 ViT 的特性,在无需人工注释的情况下提高不同类型视觉任务的性能,通过训练神经网络对各种图像的无监督学习来实现。
Jun, 2022
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架,对面部反欺诈任务进行了 Fine-tuning,与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示,ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型,进一步推动了生物识别安全领域的重要进展。
Jun, 2024
本文提出了一种基于预训练和自监督方法的计算机视觉模型,该模型使用大量的数据自动构建一种多样的图像数据集,能够在各种任务和图像的情况下快速、高效地生成功能强大的视觉特征。
Apr, 2023
本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型,通过优化定义为物体实体及其关系概念,推动 ViTs 的推理能力,并介绍了一种新的概念特征字典,以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示,我们的模型 Concept-guided Vision Transformer(或 RelViT)在 HICO 和 GQA 上的性能均优于先前的方法,并充分考虑了 ViT 变体和超参数的稳健性。
Apr, 2022
本文主要通过使用基于掩码图像建模的 MAE pre-training 方法,即 MAE-lite,来为轻量级 ViTs 的 pre-training 提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种 pre-training 的影响,揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个 distillation 策略来提高 pre-trained representations,从而实现更好的性能。
May, 2022
研究显示 ViTs 在不同的学习方法下能够学习不同的行为,并发现了一些在不同学习方法下相似的 ViT 行为,比如 Offset Local Attention Heads。同时发现对比自监督方法学习的特征与显式监督方法学习的特征竞争力相当,并且在某些情况下对于部分任务还优于显式监督方法。此外,基于重构模型的表示与对比自监督模型的表示存在非平凡的相似性。
Dec, 2022
该篇论文提出了一种从未加工过的视频中学习图像表示的方法,该方法将来自现成物体检测器的监督损失和自我监督损失相结合,取得了在 19 个迁移学习任务中有竞争力的结果,其中包括 18/19 的少样本学习任务和 8/8 的数据集泛化任务。
Oct, 2020