Mar, 2023

Google USM:扩展超过 100 种语言的自动语音识别

TL;DR本论文介绍了通用语音模型(USM),它能够在 100 多种语言中自动识别语音,并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时,本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。