Jun, 2024

基于流匹配的零样本 TTS 的噪声稳健性研究

TL;DR对于从噪声音频提示生成的语音合成,我们研究了多种策略来提高其质量,包括无监督预训练、多说话者检测、基于 DNSMOS 的数据过滤和随机噪声混合微调等,实验证明相较于应用语音增强到音频提示的方法,我们的方法能够显著提高可懂度、说话者相似度以及整体音频质量。