Oct, 2022
Maestro-U: 利用联合语音-文本表示学习进行零监督语音ASR
Maestro-U: Leveraging joint speech-text representation learning for zero
supervised speech ASR
TL;DR在这篇论文中,我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型,即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了Maestro-U的表现,它可以使错误率降低68.5%,并将19种语言的CER降到15%以下。