探索WavLM后端在语音伪造和深度伪造检测中的应用
ASVspoof 2021提出了新的deepfake语音检测任务,介绍了三个任务、每个任务的新数据库、评估指标、四个基线模型、评估平台以及比赛结果,并展示了近年来该领域取得的显著进展,尽管物理访问任务的结果显示在现实、不断变化的物理空间中检测攻击的难度很大。
Sep, 2021
本研究针对声音DeepFake威胁,研究使用最新的Whisper语音识别模型作为前端来增强声音真实性检测,实验证明使用Whisper模型可提高声音DeepFake检测的准确性。
Jun, 2023
音频深度伪造检测是检测由文本转语音或语音转换系统生成的欺骗攻击的任务。为了解决序列长度和信息聚合的问题,本文提出了HM-Conformer,采用分层池化方法和多级分类令牌聚合方法,通过处理不同的序列长度并聚合它们,有效地检测欺骗证据。在ASVspoof 2021 Deepfake数据集上的实验结果显示,HM-Conformer的等错误率为15.71%,与最近的系统相比,表现竞争性能。
Sep, 2023
通过使用五种先进的零样本文本转语音模型生成超过300小时的语音数据,构建了一个新的跨领域的ADD数据集。通过新颖的攻击增强训练方法,Wav2Vec2-large模型和Whisper-medium模型分别获得了4.1%和6.5%的等误差率,展示了出色的少样本ADD能力。然而,神经编解码器压缩技术对检测准确性产生重大影响,需要进一步研究。
Apr, 2024
语音深度伪造检测中的关键问题是不同模型训练的深度伪造模型在其他模型上表现较差。实验证明,性能差距主要是由于深度伪造生成的模型不同,而不是由于深度伪造的新质量提高而导致的,这对实际的深度伪造检测有直接影响,强调仅仅增加模型容量可能无法有效应对泛化挑战。
Jun, 2024
本研究针对ASVspoof5开放领域音频深度伪造检测中的关键问题,探讨多种反制措施的有效性,特别是引入频率掩蔽方法以增强模型的鲁棒性。实验结果表明,结合多尺度时间信息和自监督学习特征,显著提高了模型性能,表明该方法在音频安全领域具有重要应用潜力。
Aug, 2024
本研究解决了语音伪造和深度伪造攻击的检测问题,尤其是通过建立一个来自更多说话者的众包数据库。在首次引入对抗攻击的情况下,文中提出的新评估指标和基线显著提升了伪造音频的自动说话人验证的鲁棒性。研究结果表明,攻击会显著影响基线系统,而参赛者的提交则带来了显著改善。
Aug, 2024
本研究解决了在声音真实性和深伪检测领域,如何有效识别ASVspoof5数据集中攻击的问题。我们提出了一种全新的方法,利用openSMILE库中简单特征进行识别,获得了令人惊讶的准确度,特别是对于不同的攻击类型,显示出良好的泛化能力。这项工作有助于深入理解声音反欺骗模型及其在实际应用中的挑战。
Aug, 2024
本研究针对语音真实性和深度伪造检测领域中ASVspoof5数据集的最新攻击进行分析,发现通过简单的特征可以高效识别这些攻击。研究表明,这些从openSMILE库中提取的特征具有可解释性和易计算性,能够显著提高深度伪造检测的准确性,最大均等错误率(EER)可达0.8%。
Aug, 2024
本研究解决了现有深度伪音检测器评估缺乏全面基准的问题,提出了一个新颖的基准工具VoiceWukong,用于评估检测器的性能。通过构建一个涵盖265,200个英语和148,200个中文的深度伪音样本数据集,该研究揭示了现有检测器在实际应用中面临的重大挑战,尤其是性能大幅下降的现象。
Sep, 2024