卷积视觉转换器用于深度伪造视频检测
本文提出了一个名为 “GenConViT” 的模型,该模型结合了 ConvNeXt 和 Swin Transformer 模型进行特征提取,并利用自编码器和变分自编码器从潜在数据分布中进行学习,从而在检测各种深度伪造视频方面取得了较好的性能。GenConViT 模型的平均准确度为 95.8%,测试数据集上的 AUC 值为 99.3%,能够有效地解决深度伪造检测中的泛化性挑战。
Jul, 2023
本文旨在解决视频深度伪造检测的问题,特别注重于面部深度伪造,他们利用效率较高的特征提取器与各种 Vision Transformer 结合进行实验,得出的最佳模型 AUC 为 0.951,F1 得分为 88.0%.
Jul, 2021
近年来,深度伪造技术的快速发展在降低伪造成本和提高质量的同时引发了关于侵犯个人权利、国家安全威胁和公共安全风险等紧迫问题。本文综述了基于 Vision Transformer(ViT)的深度伪造检测模型,并将其分为独立的、顺序的和并行的架构。此外,它简明扼要地描绘了每个模型的结构和特点,通过分析现有研究和探讨未来发展方向,旨在为研究人员提供对 ViT 在深度伪造检测中关键作用的细致理解,为学术和实践领域提供有价值的参考。
May, 2024
本文研究深度学习架构 (CNNs 和 Transformers) 的演进,设计和开发了深度伪造检测模型,并在深度伪造数据集上进行了实验,取得了较高的准确率和 AUC,并分析了不同深度伪造数据集之间的关系。
Apr, 2023
该论文提出了一种基于卷积变换器的深度模型,旨在提高 Deepfake 检测性能,通过整合图片的局部和全局信息,采用卷积池化和再关注机制来增强特征提取、提升效率,并利用图像关键帧进行模型训练以提高性能,提出的解决方案在多个 Deepfake 基准数据集上均优于现有的基准算法。
Sep, 2022
本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架,对面部反欺诈任务进行了 Fine-tuning,与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示,ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型,进一步推动了生物识别安全领域的重要进展。
Jun, 2024
本文提出了一种基于增量学习的新型视频转换器,通过使用三维脸部重建方法来生成来自单个输入脸部图像的 UV 纹理,提取图像特征,并在较少的数据上精调该模型以实现更好的深度欺骗检测表现。
Aug, 2021
通过使用卷积神经网络和胶囊网络与长短期记忆,利用可解释的人工智能来区分深度伪造生成的帧和原始帧,以实现我们的目标,并促进透明的人工智能关系并提供真实场景的实际示例。
Apr, 2024
在本文中,我们使用基于 GAN 的开源软件从 VidTIMIT 数据库的视频生成 Deepfake 视频,调整不同的训练和混合参数对生成视频的质量有显著影响,并表明当前的人脸识别系统和现有的检测方法都很容易受到 Deepfake 视频的干扰。
Dec, 2018
本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络(ConvNets)在检测各种类型的深度伪造方面的有效性,重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调,在利用自监督学习和变换器进行深度伪造检测时,我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性,且同时需要较少的计算资源。
May, 2024