Google USM：扩展超过 100 种语言的自动语音识别

Mar, 2023

Google USM：扩展超过 100 种语言的自动语音识别

Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages

Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna...

TL;DR本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Abstract

We introduce the universal speech model (USM), a single large model that performs automatic speech recognition (ASR) across 100+ languages. This is achieved by →

universal speech model automatic speech recognition multilingual pre-training speech-to-text

发现论文，激发创造

大规模多语言自动语音识别：50 种语言，1 个模型，10 亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的 ASR 模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9％、23％和 28.8％。据我们所知，这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。

Jul, 2020

基于大型预训练基础模型的多语言说话人变更检测（USM-SCD）

我们引入了一种多语种说话人变更检测模型（USM-SCD），可以同时检测 96 种语言的说话人转换并进行 ASR。通过一系列消融研究，我们分析了这种多语种说话人变更检测模型的性能，并证明了从大规模通用基础模型进行微调对下游任务的实用性。USM-SCD 模型在包含 96 种语言数据的测试集上能够实现超过 75% 的平均说话人变更检测 F1 得分。在美式英语上，与各种公开和内部测试集相比，USM-SCD 模型能够实现 85.8% 的说话人变更检测 F1 得分，相对于之前的单语言基准模型提高了 21%。我们还表明只需要微调一个四分之一的可训练模型参数就能实现最佳模型性能。USM-SCD 模型在与强大的公开 ASR 基线相比具有最先进的 ASR 质量，适用于同时处理这两个任务并且计算成本几乎可以忽略。

Sep, 2023

70 种语言的大规模多语音识别：分词、架构、泛化能力

本文研究了 70 种语言的大规模多语种 ASR 模型，并通过优化多重嵌入和输出模型的标记化策略，相对于单一语种模型，实现了 13.9%-15.6% 的平均 WER 改进，并展示了其泛化性和零样本学习能力在 Multilingual Librispeech 上高达 9.5% 的 WER 表现。

Nov, 2022

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

为处理多个说话人而改编多语言 ASR 模型

该论文提出了一种使用改进的序列化输出训练和轻量级适配器模块来解决在会议对话中经常出现的多说话者自动语音识别（ASR）问题的方法，实验结果表明该方法有效地将 USMs 转换为具有时间戳预测能力的强大的多语言多说话人 ASR 模型

May, 2023

UniverSLU：适用于多样化分类和序列生成任务的通用口语理解单网络

通过利用大型语言模型与多任务能力展示有希望的结果，我们构建了一个名为 UniverSLU 的单一多任务学习模型，它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时，我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示，并测试了该模型对新的释意表达的泛化能力。

Oct, 2023

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

多语言和全非自回归 ASR 与大型语言模型融合：一项全面研究

在大模型时代，解码的自回归特性通常导致延迟成为一个重要瓶颈。我们提出了一个非自回归 LM 融合 ASR 系统，有效地利用了加速器硬件的并行化能力。我们的方法是将 USM 和 PaLM 2 语言模型以每个片段评分模式结合起来，在 FLEURS 和 YouTube 字幕上实现了相对 WER 的平均改进 10.8％和 3.6％。此外，我们的综合消融研究分析了关键参数，如 LLM 大小、上下文长度、词汇大小、融合方法等。例如，我们探讨了 LLM 大小从 128M 到 340B 参数对 ASR 性能的影响。该研究为实际大规模 LM 融合语音识别系统的有效性提供了有价值的见解。

Jan, 2024

多阶段多模态预训练自动语音识别

多模态预训练可以提高自动语音识别性能，尤其是结合多任务无监督预训练和基于翻译的有监督中间训练方法可以实现显著的字错误率改善。

Mar, 2024

Maestro-U: 利用联合语音 - 文本表示学习进行零监督语音 ASR

在这篇论文中，我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型，即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了 Maestro-U 的表现，它可以使错误率降低 68.5％，并将 19 种语言的 CER 降到 15％以下。

Oct, 2022