检测合成语音的深度时频艺术品

Oct, 2022

Deep Spectro-temporal Artifacts for Detecting Synthesized Speech

Xiaohui Liu, Meng Liu, Lin Zhang, Linjuan Zhang, Chang Zeng...

TL;DR本文介绍了音频深度合成检测（ADD）挑战的参赛系统，在低质量伪造音频检测和部分伪造音频检测领域取得了不错的成绩，通过使用时间信号、频谱特征和深度嵌入特征等方法检测音频中的光谱 - 时间畸变，并使用各种方法增强了数据的质量以及进行筛选，最终排名分别为第四和第五。

Abstract

The audio deep synthesis detection (ADD) Challenge has been held to detect generated human-like speech. With our submitted system, this paper provides an overall assessment of track 1 (Low-quality Fake Audio Detection) and track 2 (Partially Fake Audio Detection). In this paper,

audio deep synthesis detection spectro-temporal artifacts low-quality data augmentation self-supervised learning structure domain adaptation

发现论文，激发创造

TranssionADD: 基于多帧强化学习的序列标注模型用于音频深度伪造检测

本研究提出了一种 TranssionADD 系统，通过序列标签任务和 MFD 模块结合多种数据增强技术改进模型能力，使用 IFP 损失函数和处理 segment 异常值，有效解决了检测深度伪造语音 utterance 的难题。

Jun, 2023

跨领域音频深度伪造检测：数据集与分析

通过使用五种先进的零样本文本转语音模型生成超过 300 小时的语音数据，构建了一个新的跨领域的 ADD 数据集。通过新颖的攻击增强训练方法，Wav2Vec2-large 模型和 Whisper-medium 模型分别获得了 4.1％和 6.5％的等误差率，展示了出色的少样本 ADD 能力。然而，神经编解码器压缩技术对检测准确性产生重大影响，需要进一步研究。

Apr, 2024

众人一心、一心为公：基于深度学习的合成语音检测的特征融合

通过融合不同的特征集，本文提出了一个模型，用于合成语音检测任务，取得了比现有解决方案更好的性能，并在不同场景和数据集上进行了测试，证明了其对抗反取证攻击的强健性和泛化能力。

Jul, 2023

端到端的光谱时域图注意力网络用于说话人验证防欺诈和语音深度伪造检测

本文提出了通过使用基于图注意力网络的声谱 - 时间表示学习方法，以及采用模型级别的图融合和图池化策略，进行深度伪造声音检测的方法，在 ASVspoof 2019 数据库上达到了 1.06% 的等误率，是目前为止报告的最佳结果之一。

Jul, 2021

混乱语音评估和识别的光谱 - 时间深度特征

本文研究基于 SVD 分解的深度学习算法，用于自动识别语音障碍人士的语音，并且使用该算法提高了基于语音识别的自适应技术在该领域中的性能。

Jan, 2022

Syn-Att：通过半监督的未知多类 CNN 集成进行合成音频归属

通过将语音转化为对数梅尔频谱图，利用半监督学习和集成方法来提高稳健性和泛化性，本文提出了一种将合成语音与生成器相关联的新策略，并在 IEEE SP Cup 2022 的 ICASSP 挑战中，准确率相较 Eval 2 提高了 12-13%，Eval 1 提高了 1-2%。

Sep, 2023

DKU-DUKEECE 系统针对 ADD 2023 操控区域位置任务的研究

我们的系统通过使用多个检测系统识别拼接区域并确定其真实性，其中包括边界检测和深度伪造检测的两个帧级系统，以及使用真实数据训练的第三个 VAE 模型来确定给定音频剪辑的真实性。通过这三个系统的融合，我们在 ADD 2023 的二号任务中表现出色，句子准确率达到 82.23％，F1 分数为 60.66％。从而使我们在 ADD 2023 的二号任务中获得了最终得分为 0.6713 的第一名。

Aug, 2023

基于深度学习的音频伪造检测网络的泛化

利用小波包和短時傅里叶變換等技術，用于波形数据处理，實現了更輕量級的檢測器，用于對抗利用生成式神經網絡制造的合成語音的詐騙行為，對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。

May, 2023

ADD Challenge 2023 音频多模块深度伪造生成系统

本文建立了一个端到端的多模块合成语音生成模型，包括说话者编码器、基于 Tacotron2 的合成器和基于 WaveRNN 的声码器，并在不同数据集和模型结构上进行了大量比较实验。最终，我们在 ADD 2023 挑战赛中荣获第一名，加权欺骗成功率为 44.97％。

Jul, 2023

深度伪造音频的系统指纹识别：一份初始数据集和调查

本论文提出了一个用于系统指纹识别的 deepfake 音频数据集，并进行了初步调查，数据集由五个语音合成系统使用最先进的深度学习技术收集而成，为系统指纹识别方法的开发提供了一些基准和研究发现。

Aug, 2022