NPVForensics: 捆绑非关键音位和视位以便深度伪造检测

Jun, 2023

NPVForensics: 捆绑非关键音位和视位以便深度伪造检测

NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection

Yu Chen, Yang Yu, Rongrong Ni, Yao Zhao, Haoliang Li

TL;DR本文提出了一种新的 Deepfake 检测方法（称为 NPVForensics），在现有的多模态检测方法基础上，通过挖掘非关键音位和唇位相关性，构建相应面部特征流，设计精细的动作损失函数，以及跨模态特征融合和表示对齐模块，最终使用自监督预训练策略，在现有基准测试中取得了更优的检测效果。

Abstract

deepfake technologies empowered by deep learning are rapidly evolving, creating new security concerns for society. Existing multimodal detection methods usually capture →

deepfake deep learning audio-visual phoneme-viseme npvforensics

发现论文，激发创造

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018

面向通用视觉语言人脸伪造检测

通过引入细粒度提示和粗细联合训练框架，提出了一种名为视觉语言人脸伪造检测（VLFFD）的新范式，以解决针对深度伪造的检测模型缺乏语义信息和解释性的问题，并在多个具有挑战性的基准测试中证明了该方法对现有的检测模型有所改进。

Jul, 2023

声音脸部一致性揭示深度伪造视频

本研究提出了一种利用语音面孔匹配的方法来检测深度伪造视频，并采用预训练和微调方法以快速适应未被开发的伪造技术，实验结果表明该方法在三个不同的深度伪造数据集上表现显著优于现有的其他模型。

Mar, 2022

FTFDNet：学习通过三模态交互检测人脸视频伪造

基于 DeepFake 技术的数字面部伪造对公共媒体安全构成威胁，尤其是在使用口型操作生成说话人脸时，伪视频检测的难度进一步增加。本研究提出了一种利用视觉、音频和运动特征结合的跨模态融合模块的伪说话人脸检测网络（FTFDNet），并引进了一种新颖的音频 - 视频注意机制（AVAM），从而在已建立的伪说话人脸检测数据集（FTFDD）以及 DeepFake 视频检测数据集（DFDC 和 DF-TIMIT）上实现了比其他先进 DeepFake 视频检测方法更好的检测性能。

Jul, 2023

AV-Lip-Sync+: 利用 AV-HuBERT 揭示多模态不一致性的视频深度伪造检测

基于多模态自我监督学习（SSL）特征提取器的多模态视频伪造检测方法，利用音频和视觉模态之间的不一致性来提取视觉和声学特征，并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性，实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。

Nov, 2023

通过自监督利用真实说话人脸实现鲁棒性防伪技术

本研究提出了一种基于真实对话视频的假脸检测技术，通过跨模态自监督学习得到时序稠密视频表示，鼓励假脸检测器基于面部运动、表情和身份等因素做出真 / 假决策，并在交叉操作泛化和鲁棒性实验中取得了最先进的表现。

Jan, 2022

DF-TransFusion: 通过唇音交叉注意力和脸部自注意力进行多模态深度伪造检测

通过一个新颖的多模态音视频框架，结合音频和视频输入进行深度伪造检测，我们的模型利用交叉注意机制通过嘴唇同步输入音频，并通过经过微调的 VGG-16 网络提取视觉线索，随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究，突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。

Sep, 2023

针对对抗音频分类的通道特征自适应重新校准

本文研究了 DeepFake Audio 从检测角度进行了研究，并提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。同时，我们也通过使用 SE 块和 LFCC/MFCC 的结合，改进了 Resnet 模型，并提出了更好的输入特征嵌入方式，使得即使较为简单的模型在合成语音分类任务上也能够很好地推广。经过针对 Fake or Real 数据集的训练，我们的模型在 FoR 数据上能够获得 95％的测试准确度，并在使用不同的生成模型生成样本后适应该框架后，达到了 90％的平均准确度。

Oct, 2022

整合视听特征用于多模态深度伪造检测

深度伪造是通过人工智能生成的媒体，其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法，将细粒度的深度伪造识别与二元分类结合，增强了在域内和跨域测试下的检测能力。

Oct, 2023

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024