跨领域音频深度伪造检测：数据集与分析

Apr, 2024

跨领域音频深度伪造检测：数据集与分析

Cross-Domain Audio Deepfake Detection: Dataset and Analysis

Yuang Li, Min Zhang, Mengxin Ren, Miaomiao Ma, Daimeng Wei...

TL;DR通过使用五种先进的零样本文本转语音模型生成超过 300 小时的语音数据，构建了一个新的跨领域的 ADD 数据集。通过新颖的攻击增强训练方法，Wav2Vec2-large 模型和 Whisper-medium 模型分别获得了 4.1％和 6.5％的等误差率，展示了出色的少样本 ADD 能力。然而，神经编解码器压缩技术对检测准确性产生重大影响，需要进一步研究。

Abstract

audio deepfake detection (ADD) is essential for preventing the misuse of synthetic voices that may infringe on personal rights and privacy. Recent zero-shot text-to-speech (TTS) models pose higher risks as they can clone voices with a single utterance. However, the existing ADD dataset

audio deepfake detection zero-shot text-to-speech models add dataset attack-augmented training few-shot add ability

发现论文，激发创造

自我背叛：基于单声道到立体声转换的小说音频 DeepFake 检测模型

提出了一种新的 ADD 模型 ——M2S-ADD，目的是通过从单声道信号到立体声信号的转换，探索深假音频中的真实性线索，进而有效地揭示假音频中的人工痕迹，提高 ADD 性能。

May, 2023

ICASSP 2022 ADD 挑战赛的 MSXF TTS 系统

本文介绍了我们的 MSXF TTS 系统，使用了端到端 TTS 系统，并在训练阶段添加了一个约束损失。我们还研究了语音速度和音量对欺诈的影响。我们的团队在 ADD 挑战赛上获得了第四名。

Jan, 2022

ADD Challenge 2023 音频多模块深度伪造生成系统

本文建立了一个端到端的多模块合成语音生成模型，包括说话者编码器、基于 Tacotron2 的合成器和基于 WaveRNN 的声码器，并在不同数据集和模型结构上进行了大量比较实验。最终，我们在 ADD 2023 挑战赛中荣获第一名，加权欺骗成功率为 44.97％。

Jul, 2023

以深假音频作为训练自动语音转文字模型的数据增强技术

使用深度伪造音频的数据增广技术，通过在各种情景下训练语音转文字模型，验证了提出的框架。

Sep, 2023

TranssionADD: 基于多帧强化学习的序列标注模型用于音频深度伪造检测

本研究提出了一种 TranssionADD 系统，通过序列标签任务和 MFD 模块结合多种数据增强技术改进模型能力，使用 IFP 损失函数和处理 segment 异常值，有效解决了检测深度伪造语音 utterance 的难题。

Jun, 2023

检测合成语音的深度时频艺术品

本文介绍了音频深度合成检测（ADD）挑战的参赛系统，在低质量伪造音频检测和部分伪造音频检测领域取得了不错的成绩，通过使用时间信号、频谱特征和深度嵌入特征等方法检测音频中的光谱 - 时间畸变，并使用各种方法增强了数据的质量以及进行筛选，最终排名分别为第四和第五。

Oct, 2022

WaveFake: 一份数据集，用以方便音频 Deepfake 检测

本文介绍了一些用于分析音频信号的常见信号处理技术。我们提供了一个新的数据集，并采用了两个基线模型，以便进一步研究深层次的生成建模在音频信号领域的应用。

Nov, 2021

自动身份识别对音频视觉深度伪造的漏洞

该研究论文介绍了首个真实的音频 - 视觉深度伪造数据库 SWAN-DF，其中嘴唇和语音同步，并具有高质量的视觉和音频。研究表明，通过调整现有的预训练深度伪造模型来适应特定身份，可以在超过 90% 的时间内成功欺骗人脸和说话人识别系统，并获得非常逼真的伪造视频。

Nov, 2023

基于深度学习的音频伪造检测网络的泛化

利用小波包和短時傅里叶變換等技術，用于波形数据处理，實現了更輕量級的檢測器，用于對抗利用生成式神經網絡制造的合成語音的詐騙行為，對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。

May, 2023

FakeAVCeleb: 一种新的音视频多模态 Deepfake 数据集

针对如今深度学习技术生成的深度伪造技术的滥用所带来的严重安全和隐私问题，本研究提出了 FakeAVCeleb 这一包含视频和相应的合成唇同步伪造音频的新型多模态 Audio-Video Deepfake 数据集，其有助于打破现存音频和视频上的种族偏见，进一步帮助发展多模态深度伪造检测器。

Aug, 2021