大规模弱监督进行稳健语音识别

Dec, 2022

Robust Speech Recognition via Large-Scale Weak Supervision

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey...

TL;DR研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Abstract

We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet. When scaled to 680,000 hours of →

speech processing systems transcripts multilingual zero-shot transfer models

发现论文，激发创造

SpeechNet：工业级弱监督端到端语音识别

本文提出了一种在标注稀缺，计算有限的情境下训练和部署自动语音识别系统的方法，使用第三方 ASR 系统和用户反馈标记函数作为弱监督来源，采用不同输入长度的 CUDA 图形池来加速推理，称为 SpeechNet 系统，在智能电视上实现了 Wav2vec 技术的大规模部署，获得了 8% 的词错误率相对改进和 600% 的加速。

Nov, 2022

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

学习稳健且多语言的语音表征

本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现，通过使用多样性和嘈杂的语音数据学习表示，并在多个语言中验证其鲁棒性和可迁移性。结果显示，该方法相比基线特征集在跨域转移和 25 种不同语言的语音识别上均有显著提升。

Jan, 2020

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022

通过大规模训练实现领域不变语音识别

本研究旨在探讨利用不同应用范畴的大规模培训数据，构建单一领域不变模型的想法，以达到普适性应用并允许快速自适应，并通过实验证明培训模型的可行性和适应性。

Aug, 2018

BigSSL：大规模半监督学习在自动语音识别中的探索前沿

使用预先训练、自我训练和模型规模扩大的方法，利用大型、多样化的未标记数据集，我们取得了一系列使用巨型自动语音识别（ASR）模型的结果，表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中，通过微调一个 80 亿参数的预训练 Conformer 模型，我们可以实现仅有 3％的训练数据即可达到 SoTA 性能，并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益，涵盖了许多语音领域的公共基准测试，并跨越了多个数据集大小的数量级，并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。

Sep, 2021

语音翻译的大规模自监督和半监督学习

通过利用大量未标记的语音和文本数据（包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模）的预训练和自我训练，我们的实验结果表明，在不利用监督学习数据的前提下，通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法，能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。

Apr, 2021

面向非洲语言的大词汇量语音识别：多语言建模和自监督学习

应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量，为非洲语言建立大词汇量语音识别系统。

Aug, 2022

GigaSpeech: 一个拥有 10,000 小时转录音频的不断发展的多领域 ASR 语料库

本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech，它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频，提供了五个不同大小的训练子集，并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段，并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上，提供了基准系统。

Jun, 2021

Google USM：扩展超过 100 种语言的自动语音识别

本论文介绍了通用语音模型（USM），它能够在 100 多种语言中自动识别语音，并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时，本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。

Mar, 2023