探索自我监督视觉变换器用于深伪检测:一种比较分析
本研究通过对监督和自监督模型进行全面的比较分析,评估了八种监督深度学习架构和两种基于转化器的使用自监督策略(DINO,CLIP)进行预训练的模型在四个基准数据集上的性能,同时还研究了模型大小和性能之间的权衡,以提供关于不同深度学习架构、训练策略和深度伪造检测基准的效果的见解,促进更准确可靠的深度伪造检测系统的发展,从而在减轻深伪造对个人和社会的有害影响方面起到重要作用。
Aug, 2023
本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架,对面部反欺诈任务进行了 Fine-tuning,与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示,ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型,进一步推动了生物识别安全领域的重要进展。
Jun, 2024
自本文中,我们对各种自监督视觉变换器(ViTs)进行了比较分析,重点研究了它们的局部代表能力。我们设计了一个评估框架,分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现,基于对比学习的方法如 DINO 产生了更通用的局部表示,可以立即应用于无参数调整的下游任务,而掩蔽图像建模的方法中学习的嵌入具有高方差特征,对于大多数下游任务没有有用信息。此外,通过对本工作的基准和 Scale-MAE 的分析,我们证明了移除这些高方差特征对 k-NN 算法的改进。最后,我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。
Dec, 2023
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
本文提出了一种使用卷积视觉 Transformer 及卷积神经网络架构用于检测 Deepfakes 的方法,并在 DeepFake Detection Challenge Dataset 上进行了实验,取得了 91.5%的准确度、0.91 的 AUC 值和 0.32 的损失值。
Feb, 2021
本研究探索了视觉 Transformer 在数字病理学全幻灯片图像中,用于四种组织类型的肿瘤检测和组织类型识别。实验结果表明,在大量未标注全幻灯片图像的预训练下,视觉 Transformer 在肿瘤检测方面比 ResNet18 表现稍好。
Jun, 2022
本文研究的是计算机视觉中的自监督学习,探究了一些基本组件对自监督 ViT 训练的影响,发现稳定性是一个重要的问题,本文通过案例研究表明了部分成果实际上是不完全的失败,并探讨了当前的积极证据、挑战和开放问题。
Apr, 2021
近年来,深度伪造技术的快速发展在降低伪造成本和提高质量的同时引发了关于侵犯个人权利、国家安全威胁和公共安全风险等紧迫问题。本文综述了基于 Vision Transformer(ViT)的深度伪造检测模型,并将其分为独立的、顺序的和并行的架构。此外,它简明扼要地描绘了每个模型的结构和特点,通过分析现有研究和探讨未来发展方向,旨在为研究人员提供对 ViT 在深度伪造检测中关键作用的细致理解,为学术和实践领域提供有价值的参考。
May, 2024
研究使用自监督学习中的图像重构、遮蔽图像建模和拼图等方法来训练物体检测转换器的编码器,以实现预训练和多任务学习,并在 iSAID 数据集上进行了初步实验。
May, 2022