ICASSP 2022 ADD 挑战赛的 MSXF TTS 系统
本文建立了一个端到端的多模块合成语音生成模型,包括说话者编码器、基于 Tacotron2 的合成器和基于 WaveRNN 的声码器,并在不同数据集和模型结构上进行了大量比较实验。最终,我们在 ADD 2023 挑战赛中荣获第一名,加权欺骗成功率为 44.97%。
Jul, 2023
通过使用五种先进的零样本文本转语音模型生成超过 300 小时的语音数据,构建了一个新的跨领域的 ADD 数据集。通过新颖的攻击增强训练方法,Wav2Vec2-large 模型和 Whisper-medium 模型分别获得了 4.1%和 6.5%的等误差率,展示了出色的少样本 ADD 能力。然而,神经编解码器压缩技术对检测准确性产生重大影响,需要进一步研究。
Apr, 2024
提出了一种新的 ADD 模型 ——M2S-ADD,目的是通过从单声道信号到立体声信号的转换,探索深假音频中的真实性线索,进而有效地揭示假音频中的人工痕迹,提高 ADD 性能。
May, 2023
本文提出了一种完全自动化的端到端虚假音频检测方法,使用了 wav2vec 预训练模型和修改版的 differentiable architecture search 算法(light-DARTS),在 ASVspoof 2019 LA 数据集上取得了 1.08% 的等错误率,性能优于现有的单一系统。
Aug, 2022
在多频道多方会议转录挑战中,我们提出了两种改进目标说话人语音活动检测技术,能够处理高重叠率,重音和嘈杂环境中的多人对话,并展示了我们的系统与经典聚类算法相比,在 ALIMEETING 语料库中将 DER 降低了长达 66.55/60.59%。
Feb, 2022
本文介绍了一个语音合成系统的开发,用于 LIMMITS'24 挑战赛,主要关注第二阶段。该系统的目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统,涵盖了七种印度语言和男女两性的发言人。该系统通过使用挑战数据进行训练,并针对目标发言人进行少样本语音克隆进行了微调。评估包括对所有七种语言进行单语和跨语言综合的主观测试,评估自然度和发言人相似性。我们的系统使用了 VITS2 架构,结合多语言 ID 和 BERT 模型来增强上下文语言理解。在第一阶段,不允许使用额外数据的情况下,我们的模型的发言人相似性得分为 4.02。而在允许使用额外数据的第二阶段,得分为 4.17。
Jun, 2024
本文描述了 Microsoft 的端到端神经文本语音合成系统:用于 Blizzard Challenge 2021 的 DelightfulTTS。该系统在两个方面实现了将文本合成成自然且高质量的语音:一方面是直接建模和生成 48 kHz 采样率的波形,另一方面是通过系统化设计来建模语音中的变化信息,从而提高韵律和自然度。
Oct, 2021
本文介绍了音频深度合成检测(ADD)挑战的参赛系统,在低质量伪造音频检测和部分伪造音频检测领域取得了不错的成绩,通过使用时间信号、频谱特征和深度嵌入特征等方法检测音频中的光谱 - 时间畸变,并使用各种方法增强了数据的质量以及进行筛选,最终排名分别为第四和第五。
Oct, 2022
该论文介绍了 THUEE 团队为 IARPA OpenASR21 挑战赛开发的语音识别系统,包括使用基于混合体系结构的 ASR 系统、使用 Grapheme-to-Phoneme 技术扩展发音词典来缓解词汇外问题、使用 self-supervised 学习框架 wav2vec2.0 等技术来提高识别准确度等。
Jun, 2022
提出了一种基于多种 i-vector 子系统的得分融合方法,通过采用声学水平的 Mel 频率倒谱系数(MFCC)特征、相位水平的修改群延迟倒谱系数(MGDCC)和语音学水平的音素后验概率(PPP)串联特征来检测并对抗欺骗性语音信号。
Jul, 2015