针对自监督视觉变换器的补丁级别表示学习
我们介绍了一种新的语义图一致性(SGC)模块,利用视觉转换器(ViTs)的路径标记来规范 ViT 基于自监督学习(SSL)方法,并有效利用路径标记。我们将图像重新理论化为图形,将图像补丁作为节点,并通过显式的图神经网络消息传递将关系感应偏置纳入 SSL 框架。我们的语义图一致性损失作为正则化器,利用 ViTs 的未充分利用的路径标记构建图形,并强制在图像的多个视图之间保持图形特征的一致性。包括 ImageNet、RESISC 和 Food-101 的广泛实验表明我们的方法大大提高了所学特征的质量,当使用有限的标记数据进行线性评估时,性能提升了 5-10%。这些实验以及一整套全面测试表明了我们方法在各种情况下的潜力。
Jun, 2024
本研究探索了将图像级别与局部级别的判别相结合的自我监督表示学习方法,通过同时观察局部和全局视觉特征来增强学习表示的质量。我们提出了一个简单而有效的补丁匹配算法,借助视觉变换器(ViT)作为骨干网络,从而生成图像级别和补丁级别的表示。结果显示,我们的方法在图像分类和下游任务中表现优于最先进的图像级别表示学习方法。
Oct, 2023
自本文中,我们对各种自监督视觉变换器(ViTs)进行了比较分析,重点研究了它们的局部代表能力。我们设计了一个评估框架,分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现,基于对比学习的方法如 DINO 产生了更通用的局部表示,可以立即应用于无参数调整的下游任务,而掩蔽图像建模的方法中学习的嵌入具有高方差特征,对于大多数下游任务没有有用信息。此外,通过对本工作的基准和 Scale-MAE 的分析,我们证明了移除这些高方差特征对 k-NN 算法的改进。最后,我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。
Dec, 2023
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
利用 Vision Transformer 结合 Derandomized Smoothing 进行逐步平滑的图像建模任务来训练并提高证明补丁防御机制的可证准确性,同时重构了原始的 ViT 的全局自注意结构以适用于在实际世界中的高效推理和部署。在 ImageNet 数据集上,在 2% 区域补丁攻击下,本文方法达到 41.70% 的证明准确度,比之前最佳方法高出近 1 倍(26.00%)。同时,本方法达到了 78.58% 的干净准确度,接近正常 ResNet-101 的准确度,并在 CIFAR-10 和 ImageNet 上实现最先进的干净和证明准确度。
Mar, 2022
我们提出了一种利用自监督预训练的视觉 Transformer(ViT)来解决弱监督少样本图像分类和分割的方法,通过自注意力机制,利用自监督 ViT 的标记表示,通过独立的任务头预测分类和分割结果。实验结果表明,我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割,只使用图像级别标签,并且在少量或无像素级标签的情况下表现出显著的性能提升。
Jul, 2023
本研究探讨了视觉变换器 (ViT) 在少样本学习中的能力,发现在相同的少样本学习框架下,用 ViT 模型替换常用的 CNN 特征提取器会严重削弱少样本分类性能;本研究提出了一种名为 Self-promoted sUpervisioN (SUN) 的简单而有效的 ViT 少样本训练框架,用于改善 token 依赖性问题,并通过实验证明了 SUN 优于其他同类技术,并超过了 CNN 的最新研究成果。
Mar, 2022
本研究通过提出两种攻击策略,Self-Ensemble 和 Token Refinement,充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。
Jun, 2021
Vision Transformers (ViTs) 使用自我监督学习 (SSAT) 作为辅助任务与主任务同时进行联合优化,以在有限的数据量下取得更好的性能表现,此方法能帮助 ViTs 充分利用自我监督任务和主任务的独特特点,展现出优于传统的 ViTs 预训练与后续微调的效果,并在 10 个数据集的实验证明了 SSAT 的显著性提升并减少了碳足迹,同时在视频领域的 Deepfake 检测上也验证了其普遍适用性。
Oct, 2023
该研究探讨了图像 Transformer(ViT)的半监督学习(SSL),提出了一种新的 SSL 流程和一种概率伪混合机制,Semi-ViT 可以实现与卷积神经网络相媲美或更好的性能,并且具有可扩展性。
Aug, 2022