Oct, 2022

从预训练自监督语音模型中分析声学词嵌入

TL;DR本研究研究了多种预训练模型和池化方法,用于构建自监督表征下的变长口语单词片段的声学词嵌入,发现 HuBERT 表示法在英语 AWE 上具有与当前最先进技术相媲美的效果,并且在 XiTsonga、Mandarin、French 上显著优于多语言模型 XLSR-53。