Oct, 2023
AVTENet: 基于音频和视觉的 Transformer 集成网络在视频深度伪造检测中的应用
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection
Ammarah Hashmi, Sahibzada Adil Shahzad, Chia-Wen Lin, Yu Tsao, Hsin-Min Wang
TL;DR本研究提出了一种基于音频和视觉操纵的音视频伪造检测模型,使用 Transformer 框架,通过多个变体捕捉视觉、音频和音视频显著线索,并在最新发布的 FakeAVCeleb 数据集上取得了最好的性能。