本文提出了一种简单却难以超越的多模态神经模型,通过结合来自不同模态的特征,例如视频、音频、文本和微表情,我们证明了在现实生活视频中检测欺骗可以更加准确。在真实生活欺骗视频数据集上的实验结果表明,我们的模型在欺骗检测方面的准确率达到了 96.14%,ROC-AUC 为 0.9799。
Mar, 2018
提出一种针对真实法庭审判视频中隐蔽自动欺诈检测的系统,该系统利用从图像、声音和文本三个层面得到的低级和高级特征预测人类微表情,其中,IDT 特征 和 MFCC 特征也对系统性能提供了重要帮助,系统在经过交叉验证的数据集上的 AUC 为 0.877,优于现有接近最优的方法,同时也提供了一个用户研究,分析一般人在这个任务上的表现。
Dec, 2017
本文通过结合深度学习和判别模型提出了一种多模态方法用于自动检测欺诈,并且在五个数据集上进行了评估,结果表明基于面部表情的方法优于基于凝视和头部位置的方法,并且多模态方法与特征选择的结合可以提高检测性能。
Jul, 2023
本文提出一种基于数据驱动的自动欺骗检测方法,利用面部特征的移动,声音模式和口头分析来判断证人是否说谎,建立了支持向量机模型,并采用基于词汇分析的视觉和词汇分析相结合的方法
Mar, 2019
采用多模态投票型方法,利用图像、声音和语言特征进行自动欺骗检测,实验结果表明该方法优于现有技术。
Jun, 2023
通过一个新颖的多模态音视频框架,结合音频和视频输入进行深度伪造检测,我们的模型利用交叉注意机制通过嘴唇同步输入音频,并通过经过微调的 VGG-16 网络提取视觉线索,随后利用 Transformer 编码器网络执行面部自注意力。我们进行了多个消融研究,突出了我们方法的不同优点。我们的多模态方法在 F-1 分数和每个视频 AUC 分数方面优于最先进的多模态深度伪造检测技术。
Sep, 2023
本研究提出了一种基于真实对话视频的假脸检测技术,通过跨模态自监督学习得到时序稠密视频表示,鼓励假脸检测器基于面部运动、表情和身份等因素做出真 / 假决策,并在交叉操作泛化和鲁棒性实验中取得了最先进的表现。
Jan, 2022
本文提出了一种基于学习的方法来检测真实和虚假的 deepfake 多媒体内容,通过提取和分析同一视频中两种音频和视觉模态之间的相似性,以及提取和比较情感线索来推断输入视频是 “真实” 还是 “虚假”,并提出了一种深度学习网络,同时利用音频和视频模态以及两种模态的感知情绪进行 deepfake 检测,实验结果表明,本文方法在 DeepFake-TIMIT 数据集和 DFDC 数据集上分别达到了 84.4%和 96.6%的 AUC,是首个同时利用音频和视觉模态以及两种模态的感知情绪进行 deepfake 检测的方法。
Mar, 2020
本文介绍了一种基于多模态特征和情感状态的新的欺诈检测方法,该方法通过数据预处理、音频模式特征提取和投票方案等步骤,显著提高了多模态欺诈检测准确性,并实现了情感状态转换的新功能。
Apr, 2021
本文提出并评估了六种深度学习模型,包括 BERT(和 RoBERTa),MultiHead Attention,co-attentions 和 transformers,结果表明我们的基于 transformer 的模型可以提高自动化的欺骗检测性能(+2.11%的准确率),并显示与真实和欺骗陈述中 LIWC 特征使用相关的显着差异。
Oct, 2022