Google USM:扩展超过 100 种语言的自动语音识别
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的 ASR 模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9%、23%和 28.8%。据我们所知,这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。
Jul, 2020
我们引入了一种多语种说话人变更检测模型(USM-SCD),可以同时检测 96 种语言的说话人转换并进行 ASR。通过一系列消融研究,我们分析了这种多语种说话人变更检测模型的性能,并证明了从大规模通用基础模型进行微调对下游任务的实用性。USM-SCD 模型在包含 96 种语言数据的测试集上能够实现超过 75% 的平均说话人变更检测 F1 得分。在美式英语上,与各种公开和内部测试集相比,USM-SCD 模型能够实现 85.8% 的说话人变更检测 F1 得分,相对于之前的单语言基准模型提高了 21%。我们还表明只需要微调一个四分之一的可训练模型参数就能实现最佳模型性能。USM-SCD 模型在与强大的公开 ASR 基线相比具有最先进的 ASR 质量,适用于同时处理这两个任务并且计算成本几乎可以忽略。
Sep, 2023
本文研究了 70 种语言的大规模多语种 ASR 模型,并通过优化多重嵌入和输出模型的标记化策略,相对于单一语种模型,实现了 13.9%-15.6% 的平均 WER 改进,并展示了其泛化性和零样本学习能力在 Multilingual Librispeech 上高达 9.5% 的 WER 表现。
Nov, 2022
该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别(ASR)问题的方法,实验结果表明该方法有效地将 USMs 转换为具有时间戳预测能力的强大的多语言多说话人 ASR 模型
May, 2023
通过利用大型语言模型与多任务能力展示有希望的结果,我们构建了一个名为 UniverSLU 的单一多任务学习模型,它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时,我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示,并测试了该模型对新的释意表达的泛化能力。
Oct, 2023
本文介绍了一种基于序列到序列的正常语音识别模型,它适用于 9 种不同的印度语言,并通过训练语言特定的字形集合,将这些语言联合起来训练模型以提高其性能。
Nov, 2017
在大模型时代,解码的自回归特性通常导致延迟成为一个重要瓶颈。我们提出了一个非自回归 LM 融合 ASR 系统,有效地利用了加速器硬件的并行化能力。我们的方法是将 USM 和 PaLM 2 语言模型以每个片段评分模式结合起来,在 FLEURS 和 YouTube 字幕上实现了相对 WER 的平均改进 10.8%和 3.6%。此外,我们的综合消融研究分析了关键参数,如 LLM 大小、上下文长度、词汇大小、融合方法等。例如,我们探讨了 LLM 大小从 128M 到 340B 参数对 ASR 性能的影响。该研究为实际大规模 LM 融合语音识别系统的有效性提供了有价值的见解。
Jan, 2024
在这篇论文中,我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型,即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了 Maestro-U 的表现,它可以使错误率降低 68.5%,并将 19 种语言的 CER 降到 15%以下。
Oct, 2022