将 EfficientNet 和 Vision Transformers 相结合用于视频深度伪造检测

Jul, 2021

将 EfficientNet 和 Vision Transformers 相结合用于视频深度伪造检测

Combining EfficientNet and Vision Transformers for Video Deepfake Detection

Davide Coccomini, Nicola Messina, Claudio Gennaro, Fabrizio Falchi

TL;DR本文旨在解决视频深度伪造检测的问题，特别注重于面部深度伪造，他们利用效率较高的特征提取器与各种 Vision Transformer 结合进行实验，得出的最佳模型 AUC 为 0.951，F1 得分为 88.0％.

Abstract

deepfakes are the result of digital manipulation to forge realistic yet fake imagery. With the astonishing advances in deep generative models, fake images or videos are nowadays obtained using variational autoenc

deepfakes generative models convolutional neural networks vision transformers video deep fake detection

发现论文，激发创造

卷积视觉转换器用于深度伪造视频检测

本文提出了一种使用卷积视觉 Transformer 及卷积神经网络架构用于检测 Deepfakes 的方法，并在 DeepFake Detection Challenge Dataset 上进行了实验，取得了 91.5％的准确度、0.91 的 AUC 值和 0.32 的损失值。

Feb, 2021

使用生成卷积视觉转换器进行 Deepfake 视频检测

本文提出了一个名为 “GenConViT” 的模型，该模型结合了 ConvNeXt 和 Swin Transformer 模型进行特征提取，并利用自编码器和变分自编码器从潜在数据分布中进行学习，从而在检测各种深度伪造视频方面取得了较好的性能。GenConViT 模型的平均准确度为 95.8％，测试数据集上的 AUC 值为 99.3％，能够有效地解决深度伪造检测中的泛化性挑战。

Jul, 2023

卷积神经网络与 Transformer 在深度学习中的 Deepfake 侦测

本文研究深度学习架构 (CNNs 和 Transformers) 的演进，设计和开发了深度伪造检测模型，并在深度伪造数据集上进行了实验，取得了较高的准确率和 AUC，并分析了不同深度伪造数据集之间的关系。

Apr, 2023

DeepFakes: 一项新的人脸识别威胁？评估和检测

在本文中，我们使用基于 GAN 的开源软件从 VidTIMIT 数据库的视频生成 Deepfake 视频，调整不同的训练和混合参数对生成视频的质量有显著影响，并表明当前的人脸识别系统和现有的检测方法都很容易受到 Deepfake 视频的干扰。

Dec, 2018

使用可解释的成本敏感深度学习方法从视频中揭示 Deepfake 面孔

利用一种资源高效透明的成本敏感深度学习方法，能够有效检测视频中的深度伪造人脸，展示了模型的适应性和有效性，并应用成本敏感神经网络方法解决深度伪造检测中常见的数据集不平衡问题。

Dec, 2023

深度卷积池化变压器用于深度伪造检测

该论文提出了一种基于卷积变换器的深度模型，旨在提高 Deepfake 检测性能，通过整合图片的局部和全局信息，采用卷积池化和再关注机制来增强特征提取、提升效率，并利用图像关键帧进行模型训练以提高性能，提出的解决方案在多个 Deepfake 基准数据集上均优于现有的基准算法。

Sep, 2022

使用卷积神经网络和胶囊网络进行可解释的深度伪造视频检测

通过使用卷积神经网络和胶囊网络与长短期记忆，利用可解释的人工智能来区分深度伪造生成的帧和原始帧，以实现我们的目标，并促进透明的人工智能关系并提供真实场景的实际示例。

Apr, 2024

基于 CNN 集合的视频人脸篡改检测

本文提出了一种使用 ensembles 方法来判断现代面部操作技术的视频序列的面部操作检测的解决方案，该方案使用了基于卷积神经网络的不同模型，并结合了 EfficientNetB4、注意力层和连体训练等不同概念，针对以上两个概念结合的模型，本文在两个公开数据集上测试得出了令人期待的结果。

Apr, 2020

AVTENet: 基于音频和视觉的 Transformer 集成网络在视频深度伪造检测中的应用

本研究提出了一种基于音频和视觉操纵的音视频伪造检测模型，使用 Transformer 框架，通过多个变体捕捉视觉、音频和音视频显著线索，并在最新发布的 FakeAVCeleb 数据集上取得了最好的性能。

Oct, 2023

超越检测：深度伪造图像视觉真实度评估

本文提出了一种有效的方法来评估 DeepFake 视频的视觉真实感，并详细介绍了两个卷积神经网络模型的数据预处理和训练程序，这些模型通过从帧序列中提取的特征来预测 DeepFake 视频的 Mean Opinion Scores，并在 DeepFake Game Competition (DFGC) 2022 评估中获得了第三名。

Jun, 2023