May, 2024

DiffNorm:自监督标准化非自回归语音转语音翻译

TL;DR这项研究介绍了 DiffNorm,一种基于扩散的规范化策略,通过去噪合成损坏的语音特征构建规范化的目标数据,同时提出使用无分类器指导来进行非自回归 Transformer 模型的正则化,从而在速度和翻译质量上实现了显著的提升。