May, 2024
DiffNorm:自监督标准化非自回归语音转语音翻译
DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation
Weiting Tan, Jingyu Zhang, Lingfeng Shen, Daniel Khashabi, Philipp Koehn
TL;DR这项研究介绍了 DiffNorm,一种基于扩散的规范化策略,通过去噪合成损坏的语音特征构建规范化的目标数据,同时提出使用无分类器指导来进行非自回归 Transformer 模型的正则化,从而在速度和翻译质量上实现了显著的提升。