Apr, 2024

跨领域音频深度伪造检测:数据集与分析

TL;DR通过使用五种先进的零样本文本转语音模型生成超过 300 小时的语音数据,构建了一个新的跨领域的 ADD 数据集。通过新颖的攻击增强训练方法,Wav2Vec2-large 模型和 Whisper-medium 模型分别获得了 4.1%和 6.5%的等误差率,展示了出色的少样本 ADD 能力。然而,神经编解码器压缩技术对检测准确性产生重大影响,需要进一步研究。