NPVForensics: 捆绑非关键音位和视位以便深度伪造检测
本文提出了一种基于深度学习的新型方法,用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。
May, 2018
通过引入细粒度提示和粗细联合训练框架,提出了一种名为视觉语言人脸伪造检测(VLFFD)的新范式,以解决针对深度伪造的检测模型缺乏语义信息和解释性的问题,并在多个具有挑战性的基准测试中证明了该方法对现有的检测模型有所改进。
Jul, 2023
本研究提出了一种利用语音面孔匹配的方法来检测深度伪造视频,并采用预训练和微调方法以快速适应未被开发的伪造技术,实验结果表明该方法在三个不同的深度伪造数据集上表现显著优于现有的其他模型。
Mar, 2022
基于 DeepFake 技术的数字面部伪造对公共媒体安全构成威胁,尤其是在使用口型操作生成说话人脸时,伪视频检测的难度进一步增加。本研究提出了一种利用视觉、音频和运动特征结合的跨模态融合模块的伪说话人脸检测网络(FTFDNet),并引进了一种新颖的音频 - 视频注意机制(AVAM),从而在已建立的伪说话人脸检测数据集(FTFDD)以及 DeepFake 视频检测数据集(DFDC 和 DF-TIMIT)上实现了比其他先进 DeepFake 视频检测方法更好的检测性能。
Jul, 2023
基于多模态自我监督学习(SSL)特征提取器的多模态视频伪造检测方法,利用音频和视觉模态之间的不一致性来提取视觉和声学特征,并通过多尺度时间卷积神经网络捕捉音频和视觉模态之间的时序相关性,实验结果表明我们的模型在 FakeAVCeleb 和 DeepfakeTIMIT 数据集上表现出更好的性能。
Nov, 2023
本研究提出了一种基于真实对话视频的假脸检测技术,通过跨模态自监督学习得到时序稠密视频表示,鼓励假脸检测器基于面部运动、表情和身份等因素做出真 / 假决策,并在交叉操作泛化和鲁棒性实验中取得了最先进的表现。
Jan, 2022
通过一个新颖的多模态音视频框架,结合音频和视频输入进行深度伪造检测,我们的模型利用交叉注意机制通过嘴唇同步输入音频,并通过经过微调的 VGG-16 网络提取视觉线索,随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究,突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。
Sep, 2023
本文研究了 DeepFake Audio 从检测角度进行了研究,并提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。同时,我们也通过使用 SE 块和 LFCC/MFCC 的结合,改进了 Resnet 模型,并提出了更好的输入特征嵌入方式,使得即使较为简单的模型在合成语音分类任务上也能够很好地推广。经过针对 Fake or Real 数据集的训练,我们的模型在 FoR 数据上能够获得 95%的测试准确度,并在使用不同的生成模型生成样本后适应该框架后,达到了 90%的平均准确度。
Oct, 2022
深度伪造是通过人工智能生成的媒体,其中图像或视频经过数字修改。本研究提出了一种基于音视频的深度伪造检测方法,将细粒度的深度伪造识别与二元分类结合,增强了在域内和跨域测试下的检测能力。
Oct, 2023
通过跨模态学习方法的视听特征融合,我们提出了一种用于改进深假检测的两阶段方法,可以明确地捕捉音频和视觉模态之间的对应关系,并在真实和伪造视频上进行监督学习,取得了 98.6% 的准确率和 99.1% 的 AUC,相较于当前的音视混合最先进技术,准确率和 AUC 分别提高了 14.9% 和 9.9%。
Jun, 2024