VoiceWukong:深度伪音检测基准评估
针对如今深度学习技术生成的深度伪造技术的滥用所带来的严重安全和隐私问题,本研究提出了FakeAVCeleb这一包含视频和相应的合成唇同步伪造音频的新型多模态Audio-Video Deepfake数据集,其有助于打破现存音频和视频上的种族偏见,进一步帮助发展多模态深度伪造检测器。
Aug, 2021
该篇研究通过使用最新的深度伪造音频和视频数据集(FakeAVCeleb)进行了详细的基准实验,得出结论:单模态深度伪造检测方法仅仅能够适应单个媒体类型,仅使用视频或音频来检测不够理想,最佳的检测方法是集成式检测方法。
Sep, 2021
生成式人工智能在语音领域有着重要的隐私和道德威胁,该研究通过生成了DEEP-VOICE数据集,并利用机器学习模型进行统计分析和超参数优化,最终实现了99.3%的准确分类,并能够实时检测AI生成的语音。
Aug, 2023
利用中国伪造歌曲检测(FSD)数据集,通过训练音频伪造检测(ADD)模型,实现对歌曲伪造的验证,并发现歌曲专用ADD模型在FSD测试集中平均等误差率较训练于语音的ADD模型降低了约38.58%。
Sep, 2023
提出了歌声深度伪造检测任务,创建了第一个真实数据集SingFake,包含40位歌手5种语言的28.93小时真实歌曲和29.40小时深度伪造歌曲片段,评估了四个最先进的口语对抗系统,发现在SingFake上训练相对于在口语测试数据上训练有显著改进,但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。
Sep, 2023
通过使用五种先进的零样本文本转语音模型生成超过300小时的语音数据,构建了一个新的跨领域的ADD数据集。通过新颖的攻击增强训练方法,Wav2Vec2-large模型和Whisper-medium模型分别获得了4.1%和6.5%的等误差率,展示了出色的少样本ADD能力。然而,神经编解码器压缩技术对检测准确性产生重大影响,需要进一步研究。
Apr, 2024
通过提出一个新颖的、多语种的、多模态的深度伪造数据集PolyGlotFake,本研究在该数据集上进行了实验,展示了多模态深度伪造检测研究中的重要挑战和实用价值。
May, 2024
语音深度伪造检测中的关键问题是不同模型训练的深度伪造模型在其他模型上表现较差。实验证明,性能差距主要是由于深度伪造生成的模型不同,而不是由于深度伪造的新质量提高而导致的,这对实际的深度伪造检测有直接影响,强调仅仅增加模型容量可能无法有效应对泛化挑战。
Jun, 2024
本文解决了自动语音识别领域中语音深度伪造检测的有效性问题。通过利用预训练的WavLM作为前端模型,并结合不同的后端技术,研究展示了一种系统的融合方法以提高检测性能。最终,研究结果表明,所提出的系统在检测精度上具有显著优势。
Sep, 2024
本研究解决了音频深伪技术带来的隐私保护不足的问题,提出了一种名为SafeEar的新框架。这一框架通过神经音频编解码器独立化语义和声学信息,仅使用声学特征进行深伪检测,实验结果显示其检测不同深伪技术的错误率低至2.02%,同时有效保护了五种语言的语义内容不被暴露。
Sep, 2024