Oct, 2022

Maestro-U: 利用联合语音 - 文本表示学习进行零监督语音 ASR

TL;DR在这篇论文中,我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型,即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了 Maestro-U 的表现,它可以使错误率降低 68.5%,并将 19 种语言的 CER 降到 15%以下。