工业级多语种自动语音识别的解剖

Apr, 2024

工业级多语种自动语音识别的解剖

Anatomy of Industrial Scale Multilingual ASR

Francis McCann Ramirez, Luka Chkhetiani, Andrew Ehrenberg, Robert McHardy, Rami Botros...

TL;DR描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Abstract

This paper describes AssemblyAI's industrial-scale automatic speech recognition (ASR) system, designed to meet the requirements of large-scale, multilingual ASR serving various application needs. Our system leverages a diverse training dataset comprising unsupervised (12.5M hours), supervised (188k hours), and pseudo-labeled (1.6M hours) data across four lan

automatic speech recognition asr system model architecture word error rates code-switching capability

发现论文，激发创造

70 种语言的大规模多语音识别：分词、架构、泛化能力

本文研究了 70 种语言的大规模多语种 ASR 模型，并通过优化多重嵌入和输出模型的标记化策略，相对于单一语种模型，实现了 13.9%-15.6% 的平均 WER 改进，并展示了其泛化性和零样本学习能力在 Multilingual Librispeech 上高达 9.5% 的 WER 表现。

Nov, 2022

大规模多语言自动语音识别：50 种语言，1 个模型，10 亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的 ASR 模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9％、23％和 28.8％。据我们所知，这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。

Jul, 2020

Google USM：扩展超过 100 种语言的自动语音识别

本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Mar, 2023

少即是多：准确无需 Web 规模数据的语音识别和翻译

最新的语音识别和翻译技术依赖于数十万小时的互联网语音数据。我们认为即使不依赖于互联网规模的数据，也可以达到最先进的准确性。Canary - 多语言 ASR 和语音翻译模型在英语、法语、西班牙语和德语等语言上优于当前最先进的模型 - Whisper、OWSM 和 Seamless-M4T，与这些模型相比，它使用的数据量更少一个数量级。三个关键因素使得这种数据高效模型成为可能：（1）基于 FastConformer 的注意力编码器 - 解码器架构，（2）使用机器翻译生成的合成数据进行训练，以及（3）先进的训练技术：数据平衡、动态数据融合、动态分桶和抗噪音微调。该模型以及权重和训练代码将开源。

Jun, 2024

SpeechNet：工业级弱监督端到端语音识别

本文提出了一种在标注稀缺，计算有限的情境下训练和部署自动语音识别系统的方法，使用第三方 ASR 系统和用户反馈标记函数作为弱监督来源，采用不同输入长度的 CUDA 图形池来加速推理，称为 SpeechNet 系统，在智能电视上实现了 Wav2vec 技术的大规模部署，获得了 8% 的词错误率相对改进和 600% 的加速。

Nov, 2022

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

BigSSL：大规模半监督学习在自动语音识别中的探索前沿

使用预先训练、自我训练和模型规模扩大的方法，利用大型、多样化的未标记数据集，我们取得了一系列使用巨型自动语音识别（ASR）模型的结果，表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中，通过微调一个 80 亿参数的预训练 Conformer 模型，我们可以实现仅有 3％的训练数据即可达到 SoTA 性能，并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益，涵盖了许多语音领域的公共基准测试，并跨越了多个数据集大小的数量级，并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。

Sep, 2021

Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战

该研究提出了一种语音识别系统，专门用于适应资源有限的印度语言，采用 ASR 模型和 KenLM 语言模型，取得了较低的错误率。

Jul, 2023

MSR-86K：一个包含 86,300 小时语音转换文本的多语种演变语料库，用于语音识别研究

该论文介绍了 MSR-86K，这是一个逐渐增长的大规模多语言语音识别研究语料库，由 YouTube 上公开可访问的视频转录数据组成，包括 15 种语言和总共 86300 小时的 ASR 数据。同时，该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K，相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。

Jun, 2024

LoRA-Whisper: 参数高效且可扩展的多语言语音识别

本文提出了 LoRA-Whisper 模型，通过将 LoRA 矩阵融入 Whisper，有效减轻多语种自动语音识别中的语言干扰，并通过利用 LoRA 和语言之间的相似性，在新语种上取得更好的性能，同时保持原有语种的稳定性。在涉及八种语言的真实任务实验中，我们的提出的 LoRA-Whisper 相对于基准系统分别在多语种自动语音识别和语言扩展方面获得了 18.5% 和 23.0% 的相对增益。

Jun, 2024