检测合成语音的深度时频艺术品
本研究提出了一种 TranssionADD 系统,通过序列标签任务和 MFD 模块结合多种数据增强技术改进模型能力,使用 IFP 损失函数和处理 segment 异常值,有效解决了检测深度伪造语音 utterance 的难题。
Jun, 2023
通过使用五种先进的零样本文本转语音模型生成超过 300 小时的语音数据,构建了一个新的跨领域的 ADD 数据集。通过新颖的攻击增强训练方法,Wav2Vec2-large 模型和 Whisper-medium 模型分别获得了 4.1%和 6.5%的等误差率,展示了出色的少样本 ADD 能力。然而,神经编解码器压缩技术对检测准确性产生重大影响,需要进一步研究。
Apr, 2024
通过融合不同的特征集,本文提出了一个模型,用于合成语音检测任务,取得了比现有解决方案更好的性能,并在不同场景和数据集上进行了测试,证明了其对抗反取证攻击的强健性和泛化能力。
Jul, 2023
本文提出了通过使用基于图注意力网络的声谱 - 时间表示学习方法,以及采用模型级别的图融合和图池化策略,进行深度伪造声音检测的方法, 在 ASVspoof 2019 数据库上达到了 1.06% 的等误率,是目前为止报告的最佳结果之一。
Jul, 2021
通过将语音转化为对数梅尔频谱图,利用半监督学习和集成方法来提高稳健性和泛化性,本文提出了一种将合成语音与生成器相关联的新策略,并在 IEEE SP Cup 2022 的 ICASSP 挑战中,准确率相较 Eval 2 提高了 12-13%,Eval 1 提高了 1-2%。
Sep, 2023
我们的系统通过使用多个检测系统识别拼接区域并确定其真实性,其中包括边界检测和深度伪造检测的两个帧级系统,以及使用真实数据训练的第三个 VAE 模型来确定给定音频剪辑的真实性。通过这三个系统的融合,我们在 ADD 2023 的二号任务中表现出色,句子准确率达到 82.23%,F1 分数为 60.66%。从而使我们在 ADD 2023 的二号任务中获得了最终得分为 0.6713 的第一名。
Aug, 2023
利用小波包和短時傅里叶變換等技術,用于波形数据处理,實現了更輕量級的檢測器,用于對抗利用生成式神經網絡制造的合成語音的詐騙行為,對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。
May, 2023
本文建立了一个端到端的多模块合成语音生成模型,包括说话者编码器、基于 Tacotron2 的合成器和基于 WaveRNN 的声码器,并在不同数据集和模型结构上进行了大量比较实验。最终,我们在 ADD 2023 挑战赛中荣获第一名,加权欺骗成功率为 44.97%。
Jul, 2023
本论文提出了一个用于系统指纹识别的 deepfake 音频数据集,并进行了初步调查,数据集由五个语音合成系统使用最先进的深度学习技术收集而成,为系统指纹识别方法的开发提供了一些基准和研究发现。
Aug, 2022