SafeEar:内容隐私保护的音频深伪检测
该篇研究通过使用最新的深度伪造音频和视频数据集(FakeAVCeleb)进行了详细的基准实验,得出结论:单模态深度伪造检测方法仅仅能够适应单个媒体类型,仅使用视频或音频来检测不够理想,最佳的检测方法是集成式检测方法。
Sep, 2021
本文提出了一种名为SpecRNet的神经网络架构,其具有快速推理时间和低计算要求,可以用于检测Audio DeepFakes,性能与最好的音频DeepFake检测模型之一——LCNN架构相当;通过在三种唯一情景下提供基准测试来确认模型的正确性。
Oct, 2022
本研究旨在设计用于检测伪造声音的数据集SceneFake,其中出现的操纵声音仅涉及使用语音增强技术将发音的声学场景篡改。该数据集不仅可以在已知操纵的测试集上检测假话,还可评估假检测模型对未知操纵攻击的泛化能力,并对使用不同语音增强技术和信噪比实施的伪造攻击进行了分析。结果表明,ASVspoof 2019 的现有基线模型无法可靠地检测到场景被篡改的语音,并且检测未知场景操纵声音仍然具有挑战性。
Nov, 2022
提出了一种新的ADD模型——M2S-ADD,目的是通过从单声道信号到立体声信号的转换,探索深假音频中的真实性线索,进而有效地揭示假音频中的人工痕迹,提高ADD性能。
May, 2023
提出了歌声深度伪造检测任务,创建了第一个真实数据集SingFake,包含40位歌手5种语言的28.93小时真实歌曲和29.40小时深度伪造歌曲片段,评估了四个最先进的口语对抗系统,发现在SingFake上训练相对于在口语测试数据上训练有显著改进,但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。
Sep, 2023
该研究论文介绍了首个真实的音频-视觉深度伪造数据库SWAN-DF,其中嘴唇和语音同步,并具有高质量的视觉和音频。研究表明,通过调整现有的预训练深度伪造模型来适应特定身份,可以在超过90%的时间内成功欺骗人脸和说话人识别系统,并获得非常逼真的伪造视频。
Nov, 2023
通过使用五种先进的零样本文本转语音模型生成超过300小时的语音数据,构建了一个新的跨领域的ADD数据集。通过新颖的攻击增强训练方法,Wav2Vec2-large模型和Whisper-medium模型分别获得了4.1%和6.5%的等误差率,展示了出色的少样本ADD能力。然而,神经编解码器压缩技术对检测准确性产生重大影响,需要进一步研究。
Apr, 2024
语音深度伪造检测中的关键问题是不同模型训练的深度伪造模型在其他模型上表现较差。实验证明,性能差距主要是由于深度伪造生成的模型不同,而不是由于深度伪造的新质量提高而导致的,这对实际的深度伪造检测有直接影响,强调仅仅增加模型容量可能无法有效应对泛化挑战。
Jun, 2024
通过在音频中嵌入正交、不可逆的签名,SecureSpectra防御机制应对DeepFake威胁,避免未经授权的访问和错误信息的传播。通过将差分隐私整合到流程中,保护签名免受逆向工程的威胁,在增强安全性和减少性能损失之间取得平衡。我们在Mozilla Common Voice、LibriSpeech和VoxCeleb数据集上的评估显示SecureSpectra具有卓越的性能,在检测准确度方面超过最近的研究成果多达71%。我们将SecureSpectra开源,以造福研究界。
Jul, 2024
本研究解决了现有深度伪音检测器评估缺乏全面基准的问题,提出了一个新颖的基准工具VoiceWukong,用于评估检测器的性能。通过构建一个涵盖265,200个英语和148,200个中文的深度伪音样本数据集,该研究揭示了现有检测器在实际应用中面临的重大挑战,尤其是性能大幅下降的现象。
Sep, 2024