VoiceWukong：深度伪音检测基准评估

Sep, 2024

VoiceWukong：深度伪音检测基准评估

VoiceWukong: Benchmarking Deepfake Voice Detection

Ziwei Yan, Yanjie Zhao, Haoyu Wang

TL;DR本研究解决了现有深度伪音检测器评估缺乏全面基准的问题，提出了一个新颖的基准工具VoiceWukong，用于评估检测器的性能。通过构建一个涵盖265,200个英语和148,200个中文的深度伪音样本数据集，该研究揭示了现有检测器在实际应用中面临的重大挑战，尤其是性能大幅下降的现象。

Abstract

With the rapid advancement of technologies like text-to-speech (TTS) and voice conversion (VC), detecting Deepfake voices has become increasingly crucial. However, both academia and industry lack a comprehensive and intuitive →

发现论文，激发创造

FakeAVCeleb: 一种新的音视频多模态Deepfake数据集

针对如今深度学习技术生成的深度伪造技术的滥用所带来的严重安全和隐私问题，本研究提出了FakeAVCeleb这一包含视频和相应的合成唇同步伪造音频的新型多模态Audio-Video Deepfake数据集，其有助于打破现存音频和视频上的种族偏见，进一步帮助发展多模态深度伪造检测器。

Aug, 2021

使用单模态与多模态检测器评估音视频多模态深度伪造数据集

该篇研究通过使用最新的深度伪造音频和视频数据集（FakeAVCeleb）进行了详细的基准实验，得出结论：单模态深度伪造检测方法仅仅能够适应单个媒体类型，仅使用视频或音频来检测不够理想，最佳的检测方法是集成式检测方法。

Sep, 2021

深度伪造语音的实时检测

生成式人工智能在语音领域有着重要的隐私和道德威胁，该研究通过生成了DEEP-VOICE数据集，并利用机器学习模型进行统计分析和超参数优化，最终实现了99.3%的准确分类，并能够实时检测AI生成的语音。

Aug, 2023

FSD: 用于假歌曲检测的初始中文数据集

利用中国伪造歌曲检测（FSD）数据集，通过训练音频伪造检测（ADD）模型，实现对歌曲伪造的验证，并发现歌曲专用ADD模型在FSD测试集中平均等误差率较训练于语音的ADD模型降低了约38.58%。

Sep, 2023

SingFake: 唱歌声深度伪造检测

提出了歌声深度伪造检测任务，创建了第一个真实数据集SingFake，包含40位歌手5种语言的28.93小时真实歌曲和29.40小时深度伪造歌曲片段，评估了四个最先进的口语对抗系统，发现在SingFake上训练相对于在口语测试数据上训练有显著改进，但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。

Sep, 2023

跨领域音频深度伪造检测：数据集与分析

通过使用五种先进的零样本文本转语音模型生成超过300小时的语音数据，构建了一个新的跨领域的ADD数据集。通过新颖的攻击增强训练方法，Wav2Vec2-large模型和Whisper-medium模型分别获得了4.1％和6.5％的等误差率，展示了出色的少样本ADD能力。然而，神经编解码器压缩技术对检测准确性产生重大影响，需要进一步研究。

Apr, 2024

PolyGlotFake：一种新颖的多语言和多模态DeepFake数据集

通过提出一个新颖的、多语种的、多模态的深度伪造数据集PolyGlotFake，本研究在该数据集上进行了实验，展示了多模态深度伪造检测研究中的重要挑战和实用价值。

May, 2024

音频虚假检测的泛化：更难还是不同？

语音深度伪造检测中的关键问题是不同模型训练的深度伪造模型在其他模型上表现较差。实验证明，性能差距主要是由于深度伪造生成的模型不同，而不是由于深度伪造的新质量提高而导致的，这对实际的深度伪造检测有直接影响，强调仅仅增加模型容量可能无法有效应对泛化挑战。

Jun, 2024

探索WavLM后端在语音伪造和深度伪造检测中的应用

本文解决了自动语音识别领域中语音深度伪造检测的有效性问题。通过利用预训练的WavLM作为前端模型，并结合不同的后端技术，研究展示了一种系统的融合方法以提高检测性能。最终，研究结果表明，所提出的系统在检测精度上具有显著优势。

Sep, 2024

SafeEar：内容隐私保护的音频深伪检测

本研究解决了音频深伪技术带来的隐私保护不足的问题，提出了一种名为SafeEar的新框架。这一框架通过神经音频编解码器独立化语义和声学信息，仅使用声学特征进行深伪检测，实验结果显示其检测不同深伪技术的错误率低至2.02%，同时有效保护了五种语言的语义内容不被暴露。

Sep, 2024