FTFDNet：学习通过三模态交互检测人脸视频伪造

Jul, 2023

FTFDNet：学习通过三模态交互检测人脸视频伪造

FTFDNet: Learning to Detect Talking Face Video Manipulation with Tri-Modality Interaction

Ganglai Wang, Peng Zhang, Junwen Xiong, Feihan Yang, Wei Huang...

TL;DR基于 DeepFake 技术的数字面部伪造对公共媒体安全构成威胁，尤其是在使用口型操作生成说话人脸时，伪视频检测的难度进一步增加。本研究提出了一种利用视觉、音频和运动特征结合的跨模态融合模块的伪说话人脸检测网络（FTFDNet），并引进了一种新颖的音频 - 视频注意机制（AVAM），从而在已建立的伪说话人脸检测数据集（FTFDD）以及 DeepFake 视频检测数据集（DFDC 和 DF-TIMIT）上实现了比其他先进 DeepFake 视频检测方法更好的检测性能。

Abstract

deepfake based digital facial forgery is threatening public media security, especially when lip manipulation has been used in talking face

deepfake digital facial forgery fake talking face videos lip manipulation fake talking face detection

发现论文，激发创造

DF-TransFusion: 通过唇音交叉注意力和脸部自注意力进行多模态深度伪造检测

通过一个新颖的多模态音视频框架，结合音频和视频输入进行深度伪造检测，我们的模型利用交叉注意机制通过嘴唇同步输入音频，并通过经过微调的 VGG-16 网络提取视觉线索，随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究，突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。

Sep, 2023

通过自监督利用真实说话人脸实现鲁棒性防伪技术

本研究提出了一种基于真实对话视频的假脸检测技术，通过跨模态自监督学习得到时序稠密视频表示，鼓励假脸检测器基于面部运动、表情和身份等因素做出真 / 假决策，并在交叉操作泛化和鲁棒性实验中取得了最先进的表现。

Jan, 2022

整合视听特征用于多模态深度伪造检测

深度伪造是通过人工智能生成的媒体，其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法，将细粒度的深度伪造识别与二元分类结合，增强了在域内和跨域测试下的检测能力。

Oct, 2023

AV-Lip-Sync+: 利用 AV-HuBERT 揭示多模态不一致性的视频深度伪造检测

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

关于数字人脸篡改的检测

利用注意机制改善学习到的特征图，提高二分类（真实脸或伪造脸）的准确性和可视化处理后的伪造部位，通过大规模数据库的实验，证明了注意机制在人脸伪造检测和定位的有效性。

Oct, 2019

基于条件循环对抗网络的说话人脸生成

提出一种基于条件对抗生成的视频网络，该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性，从而实现唇部和面部平稳过度，最终通过音频片段提取的音素分布信息，开发出一种样本选择方法，可以在不降低生成视频质量的情况下有效减小训练数据集的规模。

Apr, 2018

基于面部与其上下文不一致性的 DeepFake 检测

本研究提出了一种用于在单张图像中检测人脸交换和其他身份欺诈的方法，采用包含面部和背景的两个网络来实现人脸识别和背景识别以检测图像中不一致的特征，这一方法提高了通常用于检测虚假图像的传统分类器的检测信号，并在 FaceForensics++，Celeb-DF-v2 和 DFDC，等面部操作检测基准测试中取得了最新的成果.

Aug, 2020

情感不欺人：利用情感线索的音视频 Deepfake 检测方法

本文提出了一种基于学习的方法来检测真实和虚假的 deepfake 多媒体内容，通过提取和分析同一视频中两种音频和视觉模态之间的相似性，以及提取和比较情感线索来推断输入视频是 “真实” 还是 “虚假”，并提出了一种深度学习网络，同时利用音频和视频模态以及两种模态的感知情绪进行 deepfake 检测，实验结果表明，本文方法在 DeepFake-TIMIT 数据集和 DFDC 数据集上分别达到了 84.4％和 96.6％的 AUC，是首个同时利用音频和视觉模态以及两种模态的感知情绪进行 deepfake 检测的方法。

Mar, 2020

面部篡改的深度检测

本文提出了一种基于深度学习的人脸操作检测方法，包括特征提取和二进制分类两个阶段，并采用三元组损失函数来更好地区分真实面孔和伪造面孔，实验结果表明该方法的性能大多数情况下优于现有技术。

Sep, 2020

AVTENet: 基于音频和视觉的 Transformer 集成网络在视频深度伪造检测中的应用

本研究提出了一种基于音频和视觉操纵的音视频伪造检测模型，使用 Transformer 框架，通过多个变体捕捉视觉、音频和音视频显著线索，并在最新发布的 FakeAVCeleb 数据集上取得了最好的性能。

Oct, 2023