ICASSP 2022 ADD 挑战赛的 MSXF TTS 系统

Jan, 2022

ICASSP 2022 ADD 挑战赛的 MSXF TTS 系统

The MSXF TTS System for ICASSP 2022 ADD Challenge

Chunyong Yang, Pengfei Liu, Yanli Chen, Hongbin Wang, Min Liu

TL;DR本文介绍了我们的 MSXF TTS 系统，使用了端到端 TTS 系统，并在训练阶段添加了一个约束损失。我们还研究了语音速度和音量对欺诈的影响。我们的团队在 ADD 挑战赛上获得了第四名。

Abstract

This paper presents our msxf tts system for Task 3.1 of the Audio Deep Synthesis Detection (ADD) Challenge 2022. We use an end to end text to speech system, and add a constraint loss to the system when training s

msxf tts system end-to-end tts constraint loss spoofing add challenge

发现论文，激发创造

ADD Challenge 2023 音频多模块深度伪造生成系统

本文建立了一个端到端的多模块合成语音生成模型，包括说话者编码器、基于 Tacotron2 的合成器和基于 WaveRNN 的声码器，并在不同数据集和模型结构上进行了大量比较实验。最终，我们在 ADD 2023 挑战赛中荣获第一名，加权欺骗成功率为 44.97％。

Jul, 2023

跨领域音频深度伪造检测：数据集与分析

通过使用五种先进的零样本文本转语音模型生成超过 300 小时的语音数据，构建了一个新的跨领域的 ADD 数据集。通过新颖的攻击增强训练方法，Wav2Vec2-large 模型和 Whisper-medium 模型分别获得了 4.1％和 6.5％的等误差率，展示了出色的少样本 ADD 能力。然而，神经编解码器压缩技术对检测准确性产生重大影响，需要进一步研究。

Apr, 2024

自我背叛：基于单声道到立体声转换的小说音频 DeepFake 检测模型

提出了一种新的 ADD 模型 ——M2S-ADD，目的是通过从单声道信号到立体声信号的转换，探索深假音频中的真实性线索，进而有效地揭示假音频中的人工痕迹，提高 ADD 性能。

May, 2023

全自动端到端假音频检测

本文提出了一种完全自动化的端到端虚假音频检测方法，使用了 wav2vec 预训练模型和修改版的 differentiable architecture search 算法（light-DARTS），在 ASVspoof 2019 LA 数据集上取得了 1.08% 的等错误率，性能优于现有的单一系统。

Aug, 2022

USTC-Ximalaya 系统在 ICASSP2022 多通道多方会议转录（M2MeT）挑战中的应用

在多频道多方会议转录挑战中，我们提出了两种改进目标说话人语音活动检测技术，能够处理高重叠率，重音和嘈杂环境中的多人对话，并展示了我们的系统与经典聚类算法相比，在 ALIMEETING 语料库中将 DER 降低了长达 66.55/60.59%。

Feb, 2022

一种基于 VITS2 的多说话人多语言语音克隆系统，用于 limmits2024 挑战

本文介绍了一个语音合成系统的开发，用于 LIMMITS'24 挑战赛，主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统，涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练，并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试，评估自然度和发言人相似性。我们的系统使用了 VITS2 架构，结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段，不允许使用额外数据的情况下，我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段，得分为 4.17。

Jun, 2024

DelightfulTTS: 微软语音合成系统参加暴雪挑战 2021

本文描述了 Microsoft 的端到端神经文本语音合成系统：用于 Blizzard Challenge 2021 的 DelightfulTTS。该系统在两个方面实现了将文本合成成自然且高质量的语音：一方面是直接建模和生成 48 kHz 采样率的波形，另一方面是通过系统化设计来建模语音中的变化信息，从而提高韵律和自然度。

Oct, 2021

检测合成语音的深度时频艺术品

本文介绍了音频深度合成检测（ADD）挑战的参赛系统，在低质量伪造音频检测和部分伪造音频检测领域取得了不错的成绩，通过使用时间信号、频谱特征和深度嵌入特征等方法检测音频中的光谱 - 时间畸变，并使用各种方法增强了数据的质量以及进行筛选，最终排名分别为第四和第五。

Oct, 2022

IARPA OpenASR21 挑战中的 THUEE 系统描述

该论文介绍了 THUEE 团队为 IARPA OpenASR21 挑战赛开发的语音识别系统，包括使用基于混合体系结构的 ASR 系统、使用 Grapheme-to-Phoneme 技术扩展发音词典来缓解词汇外问题、使用 self-supervised 学习框架 wav2vec2.0 等技术来提高识别准确度等。

Jun, 2022

SYSU 2015 Interspeech 自动说话人验证欺骗和对策竞赛系统

提出了一种基于多种 i-vector 子系统的得分融合方法，通过采用声学水平的 Mel 频率倒谱系数（MFCC）特征、相位水平的修改群延迟倒谱系数（MGDCC）和语音学水平的音素后验概率（PPP）串联特征来检测并对抗欺骗性语音信号。

Jul, 2015