大规模弱监督进行稳健语音识别
本文提出了一种在标注稀缺,计算有限的情境下训练和部署自动语音识别系统的方法,使用第三方 ASR 系统和用户反馈标记函数作为弱监督来源,采用不同输入长度的 CUDA 图形池来加速推理,称为 SpeechNet 系统,在智能电视上实现了 Wav2vec 技术的大规模部署,获得了 8% 的词错误率相对改进和 600% 的加速。
Nov, 2022
使用预训练的 wav2vec 2.0 和 MBART50 模型,结合自适应权重技术,显著提高公共数据集上多语言语音识别的准确性,比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。
May, 2022
本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现,通过使用多样性和嘈杂的语音数据学习表示,并在多个语言中验证其鲁棒性和可迁移性。结果显示,该方法相比基线特征集在跨域转移和 25 种不同语言的语音识别上均有显著提升。
Jan, 2020
本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码,实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率,8 种语言的平均错误率为 33.77%。
Oct, 2022
本研究旨在探讨利用不同应用范畴的大规模培训数据,构建单一领域不变模型的想法,以达到普适性应用并允许快速自适应,并通过实验证明培训模型的可行性和适应性。
Aug, 2018
使用预先训练、自我训练和模型规模扩大的方法,利用大型、多样化的未标记数据集,我们取得了一系列使用巨型自动语音识别(ASR)模型的结果,表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中,通过微调一个 80 亿参数的预训练 Conformer 模型,我们可以实现仅有 3%的训练数据即可达到 SoTA 性能,并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益,涵盖了许多语音领域的公共基准测试,并跨越了多个数据集大小的数量级,并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。
Sep, 2021
通过利用大量未标记的语音和文本数据(包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模)的预训练和自我训练,我们的实验结果表明,在不利用监督学习数据的前提下,通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法,能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。
Apr, 2021
本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech,它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频,提供了五个不同大小的训练子集,并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段,并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上,提供了基准系统。
Jun, 2021
本论文介绍了通用语音模型(USM),它能够在 100 多种语言中自动识别语音,并使用多语言预训练和随机投影量化等技术来实现跨语言自动语音识别和语音到文本转换这些任务的最先进水平。同时,本文证明使用少量的标记数据集进行训练的 USM 模型在很多语言的领域内和领域外的语音识别任务中表现出了与 Whisper 模型相当或更好的性能。
Mar, 2023