ADD Challenge 2023 音频多模块深度伪造生成系统

Jul, 2023

ADD Challenge 2023 音频多模块深度伪造生成系统

An End-to-End Multi-Module Audio Deepfake Generation System for ADD Challenge 2023

Sheng Zhao, Qilong Yuan, Yibo Duan, Zhuoyue Chen

TL;DR本文建立了一个端到端的多模块合成语音生成模型，包括说话者编码器、基于 Tacotron2 的合成器和基于 WaveRNN 的声码器，并在不同数据集和模型结构上进行了大量比较实验。最终，我们在 ADD 2023 挑战赛中荣获第一名，加权欺骗成功率为 44.97％。

Abstract

The task of synthetic speech generation is to generate language content from a given text, then simulating fake human voice.The key factors that determine the effect of synthetic speech generation mainly include

synthetic speech generation end-to-end multi-module model tacotron2 wavernn add 2023 challenge

发现论文，激发创造

端到端对抗文本转语音

该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法，使用逐字符或逐音素音频输出序列，通过可微分的对齐策略来保证高保真度音频的生成，实现了在不需要多阶段训练和额外监督下，比之前的技术达到了相似的高质量合成音效。

Jun, 2020

ICASSP 2022 ADD 挑战赛的 MSXF TTS 系统

本文介绍了我们的 MSXF TTS 系统，使用了端到端 TTS 系统，并在训练阶段添加了一个约束损失。我们还研究了语音速度和音量对欺诈的影响。我们的团队在 ADD 挑战赛上获得了第四名。

Jan, 2022

跨领域音频深度伪造检测：数据集与分析

通过使用五种先进的零样本文本转语音模型生成超过 300 小时的语音数据，构建了一个新的跨领域的 ADD 数据集。通过新颖的攻击增强训练方法，Wav2Vec2-large 模型和 Whisper-medium 模型分别获得了 4.1％和 6.5％的等误差率，展示了出色的少样本 ADD 能力。然而，神经编解码器压缩技术对检测准确性产生重大影响，需要进一步研究。

Apr, 2024

基于生成对抗网络的端到端视频语音合成

该论文提出了一种基于生成对抗网络的端到端视频到语音模型，该模型能够直接合成原始音频波形，无需使用中间表示或单独的波形重建算法，同时在 GRID 和 LRW 数据集上的表现比以前的方法更好。

Apr, 2021

TranssionADD: 基于多帧强化学习的序列标注模型用于音频深度伪造检测

本研究提出了一种 TranssionADD 系统，通过序列标签任务和 MFD 模块结合多种数据增强技术改进模型能力，使用 IFP 损失函数和处理 segment 异常值，有效解决了检测深度伪造语音 utterance 的难题。

Jun, 2023

Tacotron: 面向端到端的语音合成

该研究提出了 Tacotron，一种端到端的生成式文本转语音模型，通过多个关键技术在序列到序列的框架下进行良好性能表现，同时模型以帧为单位直接生成语音，表现自然度和速度方面优于传统的参数化系统。

Mar, 2017

神经文本转口头表达：深度文本到视听说话合成实现听觉与逼真图像

在这篇论文中，我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART，它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失，该模型能够生成人类般发音和音视频同步的逼真说话人脸视频，实验证明其在客观指标和人类评估方面达到了最先进的生成质量。

Dec, 2023

多说话人神经语音合成的多任务对抗训练算法

本研究提出了一种基于多任务对抗训练的多说话者神经语音合成模型的新型训练算法，能够提高合成语音的质量，并能够推广到未见过的说话者。

Sep, 2022

自我背叛：基于单声道到立体声转换的小说音频 DeepFake 检测模型

提出了一种新的 ADD 模型 ——M2S-ADD，目的是通过从单声道信号到立体声信号的转换，探索深假音频中的真实性线索，进而有效地揭示假音频中的人工痕迹，提高 ADD 性能。

May, 2023

基于深度学习的音频伪造检测网络的泛化

利用小波包和短時傅里叶變換等技術，用于波形数据处理，實現了更輕量級的檢測器，用于對抗利用生成式神經網絡制造的合成語音的詐騙行為，對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。

May, 2023