少即是多：准确无需 Web 规模数据的语音识别和翻译

Jun, 2024

少即是多：准确无需 Web 规模数据的语音识别和翻译

Less is More: Accurate Speech Recognition & Translation without Web-Scale Data

Krishna C. Puvvada, Piotr Żelasko, He Huang, Oleksii Hrinchuk, Nithin Rao Koluguri...

TL;DR最新的语音识别和翻译技术依赖于数十万小时的互联网语音数据。我们认为即使不依赖于互联网规模的数据，也可以达到最先进的准确性。Canary - 多语言 ASR 和语音翻译模型在英语、法语、西班牙语和德语等语言上优于当前最先进的模型 - Whisper、OWSM 和 Seamless-M4T，与这些模型相比，它使用的数据量更少一个数量级。三个关键因素使得这种数据高效模型成为可能：（1）基于 FastConformer 的注意力编码器 - 解码器架构，（2）使用机器翻译生成的合成数据进行训练，以及（3）先进的训练技术：数据平衡、动态数据融合、动态分桶和抗噪音微调。该模型以及权重和训练代码将开源。

Abstract

Recent advances in speech recognition and translation rely on hundreds of thousands of hours of Internet speech data. We argue that state-of-the art accuracy can be reached without relying on web-scale data. Cana

speech recognition translation multilingual asr data-efficient model machine translation

发现论文，激发创造

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

ASR2K：2 千个左右的语言的语音识别（无需音频）

提出了一种语音识别流程，可以利用 n-gram 统计信息或原始文本数据集，在没有音频文件的情况下，使用多语种模型构建语音识别流程，并在 1909 种语言上进行了测试。

Sep, 2022

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

基于公共语音识别语料训练的仅解码器模型的极限探索

本文研究了使用公共英语 ASR 语料库训练仅解码器模型（DOTA）相比于基于编码器 - 解码器的开源复制模型（OWSM）和 Whisper 的大型语言模型（Whisper large-v3），在几乎所有英语 ASR 基准测试集上取得更好的性能，并在 15 个测试集中的 7 个上超过了 Whisper。我们在宽松许可下发布了我们的代码库和模型检查点。

Jan, 2024

低资源语音到文本翻译

通过实验研究，我们发现在资源有限的情况下，从字符级识别转化成单词级可以显著提高低资源语言语音翻译的速度，并且在训练数据相对较少的情况下，仍然可以实现相对较高的词汇精度和召回率。

Mar, 2018

SpeechNet：工业级弱监督端到端语音识别

本文提出了一种在标注稀缺，计算有限的情境下训练和部署自动语音识别系统的方法，使用第三方 ASR 系统和用户反馈标记函数作为弱监督来源，采用不同输入长度的 CUDA 图形池来加速推理，称为 SpeechNet 系统，在智能电视上实现了 Wav2vec 技术的大规模部署，获得了 8% 的词错误率相对改进和 600% 的加速。

Nov, 2022

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了 DistilWhisper 方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的 ASR 性能。

May, 2024

大规模多语言自动语音识别：50 种语言，1 个模型，10 亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的 ASR 模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9％、23％和 28.8％。据我们所知，这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。

Jul, 2020

Google USM：扩展超过 100 种语言的自动语音识别

本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Mar, 2023

利用支持性文本数据启动有限转录的自动语音识别系统开发

本文研究发现，使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别（ASR）的 word error rate，其中 lexicon 对于改善 ASR 性能没有多大作用，而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。

Feb, 2023